hbase

  • 一个Hbase数据读取优化的小例子

    今天群里有个有经验的大神提了一个问题(@尘事随缘),记录下来. A君搭建一个小型的集群,7台DataNode,一台主节点.需求是这样:通过MR程序去读取Hbase表里面的数据,程序运行后发现速度比较慢,通过查询任务详细发现,累计需要1542个Map完成,目前有14个MAP在执行.客户对此速度表示不满意,请问如何优化? 首先通过Job看,有1542个Map需要执行,说明Hbase,有1542个分区(每个分区对应一个Map),这是一个知识点. 数据不存在热点,Hbase处理性能没有问题 有1542个

    hbase, 优化, 参数配置May 7

  • 2014-04-14---Hadoop的基础学习(九)---简单学习Hadoop生态的组件HBase
    2014-04-14---Hadoop的基础学习(九)---简单学习Hadoop生态的组件HBase

    1.分布式表格系统的由来 分布式表格系统对外提供表格模型,每个表格由很多行组成,通过主键唯一标识,每一行包含很多列.整个表格在系统中全局有序.而Google的BigTable是分布式表格系统的始祖,它采用双层结构.底层用GFS作为持久层存储层.而BigTable的对外的接口不怎么丰富.所以谷歌有开发出Megastore和Spanner.既提供来接口,又能处理事务. 表格中的每一行都有主键(Row Key)作为唯一标识.每一行又包含很多列(Column).某一行的某一列构成一个单元(Cell),每

    hbase, 分布式表格May 5

  • 实战:在Java Web 项目中使用HBase

    在此之前我们使用Mysql作为数据源,但发现这数据增长速度太快,并且由于种种原因,因此必须使用HBase,所以我们要把Mysql表里面的数据迁移到HBase中,在这里我就不讲解.不争论为什么要使用HBase,HBase是什么了,喜欢的就认真看下去,总有些地方是有用的 我们要做的3大步骤: 新建HBase表格. 把MYSQL数据迁移到HBase中. 在Java Web项目中读取HBase的数据. 先介绍一下必要的一些环境: HBase的版本:0.98.8-hadoop2 所需的依赖包: commo

    hbase, Java, Web, MySQLApril 10

  • HBase on CAP

    With respect to CAP, HBase is decidedly CP. HBase makes strong consistency guarantees. If a client succeeds in writing a value, other clients will receive the updated value on the next request. In HBase, data is only served by one region server (even

    consistency, tolerance, partition, hbase, availability, CAPApril 9

  • 在secureCRT中解决hbase shell退格不能删除问题

    在secureCRT中,点击[选项][会话选项][终端][仿真],右边的终端选择linux,在hbase shell中如输入出错,按住Ctrl+删除键(backspace) 即可删除!

    shell, securecrt, hbaseApril 8

  • 大数据系列11:Gora – 大数据持久化

    wget http://mirrors.cnnic.cn/apache/gora/0.3/apache-gora-0.3-src.zip unzip apache-gora-0.3-src.zip cd apache-gora-0.3 mvn clean package 1.创建项目 mvn archetype:create -DgroupId=org.apdplat.demo.gora -DartifactId=gora-demo 2.增加依赖 vi gora-demo/pom.xml 在<d

    hbase, 搜索引擎, 大数据, 网络爬虫, GoraApril 7

  • 大数据系列6:HBase – 基于Hadoop的分布式数据库

    wget http://mirrors.cnnic.cn/apache/zookeeper/zookeeper-3.4.5/zookeeper-3.4.5.tar.gz tar -xzvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 cp conf/zoo_sample.cfg conf/zoo.cfg vi conf/zoo.cfg 修改:dataDir=/home/ysc/zookeeper 添加: server.1=host001:2888:3888

    hbase, 搜索引擎, 大数据, 网络爬虫, GoraApril 6

  • 大数据系列1:在win7上安装配置Hadoop伪分布式集群

    1. 安装虚拟机和操作系统 VMware-workstation-full-10.0.0 或 VirtualBox-4.2.18-88781-Win 下载VMware 下载VirtualBox ubuntu-13.04-server-amd64.iso 下载ubuntu 2. 设置root用户密码 sudo passwd root 3. 上传文件 利用WinSCP上传JDK和HADOOP文件,利用putty连接虚拟机中的ubuntu,下载WinSCP, 下载putty, 下载jdk,下载hado

    hbase, hadoop, 搜索引擎, 大数据, 网络爬虫April 6

  • 对Nutch2.1抽象存储层的一些看法

    Nutch2.1通过gora对存储层进行了扩展,可以选择使用HBase.Accumulo.Cassandra .MySQL .DataFileAvroStore.AvroStore中任何一种来存储数据,但其中一些并不成熟.在我的反复测试中发现,整体来说,Nutch2.1比起Nutch1.6的性能要差得多,最重要的是不能长期稳定运行.Nutch1.6使用Hadoop Distributed File System (HDFS)来作为存储,稳定可靠.下面分别说说每一种存储方式的情况: HBase(c

    hbase, nutch, cassandra, Accumulo, GoraApril 4

  • HBase Java API类介绍

    几个相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration HTable 表(Table) HTableDescriptor 列族(Column Family) Put 列修饰符(Column Qualifier) Get Scanner 一.HBaseConfiguration 关系:org.apache.hadoop.hbase.HBaseConfiguration 作用:对HBase进

    hbase, JavaMarch 20

  • hive hbase区别
    hive hbase区别

    Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样.在这种情况下,就需要Hive这样的用戶编程接口.Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据.使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就不是SQL. HBase为查询而生的,它通过组织起节点內所有机器的內存,提供一個超大的內存Hash表

    hbase, hiveMarch 17

  • hadoop.hbase.zookeeper环境搭建

    一 机器 192.168.0.203 hd203: hadoop namenode & hbase HMaster 192.168.0.204 hd204: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.205 hd205: hadoop datanode & hbase HRegionServer & zookeeper 192.168.0.206 hd206: hadoop datanod

    hbase, hadoop, zookeeperMarch 13

  • Hbase的学习笔记(1)

    什么场景下应用Hbase? 成熟的数据分析主题,查询模式已经确立,并且不会轻易改变. 传统的关系型数据库已经无法承受负荷,高速插入,大量读取. 适合海量的,但同时也是简单的操作(例如:key-value).

    hbaseMarch 12

  • 两次hbase丢失数据的故障及原因分析--hbase split过程
    两次hbase丢失数据的故障及原因分析--hbase split过程

    hbase的稳定性是近期社区的重要关注点,毕竟稳定的系统才能被推广开来,这里有几次稳定性故障和大家分享. 第一次生产故障的现象及原因 现象: 1 hbase发现无法写入 2 通过hbck检测发现.META.表中出现空洞,具体log 是:;Chain of regions in table ... is broken; edges does not contain ... 3 此时读写失败 修复方法:直接使用check_meta.rb重新生成.META.表并修补空洞,但是会引起数据丢失.因为引起该

    hbase, Split, 故障分析February 26

  • Hbase split的三种方式
    Hbase split的三种方式

    在Hbase中split是一个很重要的功能,Hbase是通过把数据分配到一定数量的region来达到负载均衡的.一个table会被分配到一个或多个region中,这些region会被分配到一个或者多个regionServer中.在自动split策略中,当一个region达到一定的大小就会自动split成两个region.table在region中是按照row key来排序的,并且一个row key所对应的行只会存储在一个region中,这一点保证了Hbase的强一致性 . 在一个region中有

    hbase, SplitFebruary 26

  • HBase中Scan类属性maxResultSize的说明

    有同学希望调用Scan.setMaxResultSize(long)这个方法来设置scan扫描后返回的条数,目前我的理解,这个属性能到一定的限制作用,但是很多时候不会向你想的那样其作用,下面我来进行一些说明. 如果你看过HRegionServer的启动过程,你会发现他也有一个类似的属性maxScannerResultSize(配置文件中通过hbase.client.scanner.max.result.size设置),其实这个值就是Scan做扫描时候maxResultSize的默认值,那这个ma

    hbase, Caching, scan, maxResultSizeFebruary 5

  • 关于hbase 的一些基本概念

    Hbase主要部件组成 Cilent 包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如regione的位置信息. MasterServer 为Region server分配region 负责region server的负载均衡 发现失效的region server并重新分配其上的region HDFS上的垃圾文件回收 处理schema更新请求 Region Server Region server维护Master分配给它的region,处理对这些regio

    marker, hbase, DELETE, compactionsFebruary 1

  • 基于solr实现hbase的二级索引

    基于solr实现hbase的二级索引 [X] 目的: 由于hbase基于行健有序存储,在查询时使用行健十分高效,然后想要实现关系型数据库那样可以随意组合的多条件查询.查询总记录数.分页等就比较麻烦了.想要实现这样的功能,我们可以采用两种方法: 使用hbase提供的filter, 自己实现二级索引,通过二级索引 查询多符合条件的行健,然后再查询hbase. 第一种方法不多说了,使用起来很方便,但是局限性也很大,hbase的filter是直接扫记录的,如果数据范围很大,会导致查询速度很慢. 所以如果

    hbase, solr, 索引, index, 2级January 16

  • hadoop中HBase子项目入门讲解

    HBase 提供了一个类似于mysql等关系型数据库的hbase shell,通过该hbase shell可以对HBase的内的相关表.列族等进行操作:HBase shell的help命令比较详细的列介绍了HBase所支持的命令.具体使用方法可以参见其API文档. 在这里简单举个学生表scores的案例进行讲解,表数据如下: name grad course:math course:english Tom 1 89 97 Jerry 2 100 90 这 里grad对于表来说是一个列,cours

    shell, hbase, hadoopJanuary 16

  • HBase Flush操作流程以及对读写服务的影响
    HBase Flush操作流程以及对读写服务的影响

    HBase的Flush操作的触发条件: 1)Manual调用,HRegionInterface#flushRegion,可以被用户态org.apache.hadoop.hbase.client.HBaseAdmin调用flush操作实现,该操作会直接触发HRegion的internalFlush. 2)HRegionServer的一次更新操作,使得整个内存使用超过警戒线.警戒线是globalMemStoreLimit, RS_JVM_HEAPSIZE * conf.getFloat("hbase

    hbase, flushJanuary 14

  • 基于外部ZooKeeper的GlusterFS作为分布式文件系统的完全分布式HBase集群安装指南

    (WJW)基于外部ZooKeeper的GlusterFS作为分布式文件系统的完全分布式HBase集群安装指南 [X] 前提条件 服务器列表: 192.168.1.84 hbase84 #hbase-master 192.168.1.85 hbase85 #hbase-regionserver,zookeeper 192.168.1.86 hbase86 #hbase-regionserver,zookeeper 192.168.1.87 hbase87 #hbase-regionserver,z

    hbase, zookeeper, glusterfsJanuary 6

  • hbase0.98.9中实现endpoints

    在我的前面一篇博客中,抄录了hbase官网的一段话,讲的是0.96.0以后版本中endpoint的实现机制由于引进了protobuf框架,有了比较彻底的改变.本文承接上面一篇博客,给出定制一个endpoint的过程. 下面是实现过程: 1.定义接口描述文件(该功能有protobuf提供出来) option java_package = "coprocessor.endpoints.generated"; option java_outer_classname = "RowCo

    hbase, endpoint, 示例, 0.98.9January 4

  • The implementation for endpoints in HBase 0.96.x

    The implementation for endpoints changed significantly in HBase 0.96.x due to the introduction of protocol buffers (protobufs) (HBASE-5488). If you created endpoints before 0.96.x, you will need to rewrite them. Endpoints are now defined and callable

    hbase, endpoints, 0.98.9, protobufs, BaseEndpointCoprocessorJanuary 4

  • HBase Shell Commands

    HBase shell commands are mainly categorized into 6 parts: General HBase Shell Commands status Show cluster status. Can be 'summary', 'simple', or 'detailed'. The default is 'summary'. hbase> status hbase> status 'simple' hbase> status 'summary' h

    hbase, commandJanuary 3

  • [甘道夫]HBase基本数据操作详解[完整版,绝对精品]

    引言 之前详细写了一篇HBase过滤器的文章,今天把基础的表和数据相关操作补上. 本文档 参考最新 (截止2014年7月16日)的 官方 Ref Guide. Developer API编写 . 所有代码均基于"hbase 0.96.2-hadoop2 "版本编写,均实测通过. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37878701 概述 对于建表,和RDBMS类似,HBase也有namespace的概念

    hbase, 表操作January 2

  • HBase -ROOT-和.META.表结构
    HBase -ROOT-和.META.表结构

    在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer.什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer.Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭秘这个过程. 在前面的文章"HBase存储架构"中我们已经讨论了HBase基本的存储架构.

    meta, hbase, 结构, -ROOR-December 30

  • 元注解:@Retention 在hbase中用于获取确定高优先级的RPC操作

    概念 注解@Retention可以用来修饰注解,是注解的注解,称为元注解. Retention注解有一个属性value,是RetentionPolicy类型的,Enum RetentionPolicy是一个枚举类型, 这个枚举决定了Retention注解应该如何去保持,也可理解为Rentention 搭配 RententionPolicy使用. RetentionPolicy有3个值:CLASS RUNTIME SOURCE 用@Retention(RetentionPolicy.CLASS)修

    hbase, 优先级, Retention, 元注解December 24

  • HBase源码阅读资源

    HBase MemStoreFlusher 虽与最新版0.98.7的实现已经有差异,但分析的比较好 MemeStoreFlusher在HRegionServer类中初始化. HRegionServer实现了Runnable接口,在run方法中针对MemeStoreFlusher进行了初始化 private void initializeThreads() throws IOException { // Cache flushing thread. this.cacheFlusher = new

    hbase, 源码, 资源, 阅读December 22

  • 将字符串或数字倒序输出

    将字符串或数字倒序输出,以使这些呈散列分布,用于作为hbase rowkey的一部分,避免region的读写热点 public class StringUtil { public static void main(String[] args) { long start = System.currentTimeMillis(); for (int i = 0; i < 10; i++) { System.out.println(reverseLong(78945612399l)); } Syste

    hbase, 倒序, rowkeyDecember 2

  • HBase 命令行使用

    HBase 命令行使用方法 持续添加中-- 未完待续 status 命令后面可以添加 'summary' , 'simple' 以及 'detailed'三个参数 三种参数打印的信息逐步详细 推荐使用'simple' 'summary'太简单 'detailed' 基本不可读 hbase> status hbase> status 'simple' hbase> status 'summary' hbase> status 'detailed' HBase shell 中还可以使用

    hbase, #line, commandNovember 26

  • hadoop2.2.0对应HBase安装说明

    HBase0.96.0安装说明 注:安装配套2.2.0版本的HBase,需要-0.96.2-hadoop2-bin.tar.gz 1.1 下载安装包 下载地址:http://mirror.esocc.com/apache/hbase/ hbase-0.96.2/hbase-0.96.2-hadoop2-bin.tar.gz 安装: $ tar -zxf hbase-0.96.2-hadoop2-bin.tar.gz $ cd hbase-0.96.2-hadoop2 配置: conf/hbase

    hbase, hadoop, hdfs, zookeeprNovember 24

  • 手把手教你配置Hbase完全分布式环境
    手把手教你配置Hbase完全分布式环境

    HBase配置相对比较简单,下面的教程也是基于我上面2篇Hadoop配置的环境下继续往下添加HBase的分布式配置,这次我的HBase安装目录放在跟Hadoop同一目录下面,节点信息跟我前一篇Hadoop完全分布式配置完全一样,不清楚的话可以参考我那篇文章. HBase根目录:/usr/mywind/hbase HBase的版本:0.98.8-hadoop2 有图有真相: 完整配置步骤:hadoop-env.sh→hbase-env.sh → hbase-site.xml → regionser

    hbase, 配置, 分布式November 24

  • HBase 性能优化笔记

    HBase 性能优化笔记 不断更新... 1 hbase.hregion.max.filesize应该设置多少合适 2 autoflush=false的影响 3 从性能的角度谈table中family和qualifier的设置 4 hbase.regionserver.handler.count详解 1 hbase.hregion.max.filesize应该设置多少合适 默认值:256M 说明:Maximum HStoreFile size. If any one of a column fa

    hbase, 优化, flushNovember 22

  • hbase使用错误总结

    一.客户端访问hbase时出现no further information 使用java api访问hbase时,一直连不上,查看日志发现以下错误: java.net.ConnectException: Connection refused: no further information at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect

    hbase, hadoop, 解决问题November 2

  • Hive HBase 整合
    Hive HBase 整合

    环境说明: l hadoop:2.4.0 l Zookeeper:3.4.6 l Hbase:0.96 l Hive:0.13.1 1. Hive整合HBase原理 Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠Hive安装包\apache-hive-0.13.1-bin\lib\hive-hbase-handler-0.9.0.jar工具类,它负责Hbase和Hive进行通信的. Hive和HBase通信原理如下图: 2. Hive的安装 Step

    hbase, hive, 整合October 29

  • 解决HBase Replication在数据大量写入时导致RegionServer崩溃问题

    HBase在0.90之后的版本提供Replication功能,这些天本人在测试这个功能时发现在大量数据(>100W)写入时会出现RegionServer崩溃的情况.异常日志如下: 2014-10-29 10:40:44,225 WARN org.apache.hadoop.hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block blk_-2223802775658985697_1410java.io.EOFExc

    hbase, DFSClientOctober 29

  • RegionServer自动消失

    最近发现RegionServer自动消失,查看日志发现好像说时钟差了xxx秒,我估计是时钟同步差距太大了,我就尝试重新同步了一下时钟,果然没有再出现RegionServer自动消失的情况. Ubuntu时钟同步(与时间服务器上的时间同步)如下: 1. 安装ntpdate工具 # sudo apt-get install ntpdate 2. 设置系统时间与网络时间同步 # sudo ntpdate cn.pool.ntp.org 3. 将系统时间写入硬件时间 # sudo hwclock --s

    hbase, HRegionServerOctober 13

  • HBase图文详解
    HBase图文详解

    hbase 介绍 一.简介 1. Hbase的由来 hbase是bigtable的开源山寨版本. 是建立的hdfs之上,提供高可靠性.高性能.列存储.可伸缩.实时读写的数据库系统. 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作).主要用来存储非结构化和半结构化的松散数据. 与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力. 大:一个

    hbaseSeptember 2

  • MySql与HBase之间数据的互导(借助sqoop)
    MySql与HBase之间数据的互导(借助sqoop)

    在进行下面的步骤之前,请确保你的hadoop,hbase,hive,mysql,sqoop已经安装配置完好 此处我的配置如下: hadoop-1.2.1 hbase-0.94.18 hive-0.12.0 mysql-5.5.37 sqoop-1.4.4 一.将mysql中的数据导入到hbase中,这一步相对来说是比较简单的 1.在mysql中建立一个teacher表,插入5组数据,我这里没有将表建立的太大,可以根据自身数据大小情况改变创建表的大小,表的结构如下图所示: 2.在进行下一步之前,一

    hbase, hive, MySQL, sqoopAugust 19

  • HBase 快照

    在之前的版本 备份或者克隆表的唯一方式就是使用MapReduce扫描&复制表 这样对所有Online RegionServer都会造成影响. 相比之下HBase快照不拷贝数据直接克隆一张表,这对Region Server产生影响最小. 将快照导出至其他集群不会直接影响到任何域服务器:导出只是带有一些额外逻辑的群间数据同步. 快照就是一份元信息的合集,允许管理员恢复到表的先前状态. 快照不是表的复制而是一个文件名称列表,因而不会复制数据. 完全快照恢复是指恢复到之前的"表结构"以

    hbase, 快照August 9

  • ZeroCopyLiteralByteString cannot access superclass

    问题描述 在HBase上运行MapReduce作业时,报如下异常:IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString 使用HBase环境如下:CDH5.0.1, HBase版本:0.96.1 问题原因 This isssue occurs because of an optim

    hbase, superclass, mapreduce, HBaseZeroCopyByteString, LiteralByteStringJuly 16

  • HBase Filter介绍及执行流程
    HBase Filter介绍及执行流程

    HBASE过滤器介绍: 所有的过滤器都在服务端生效,叫做谓语下推(predicate push down),这样可以保证被过滤掉的数据不会被传送到客户端. 注意: 基于字符串的比较器,如RegexStringComparator和SubstringComparator,比基于字节的比较器更慢,更消耗资源.因为每次比较时它们都需要将给定的值转化为String.截取字符串子串和正则式的处理也需要花费额外的时间. 过滤器本来的目的是为了筛掉无用的信息,所有基于CompareFilter的过滤处理过程是

    hbase, 过滤器, filter, scan, CompareFilterJuly 11

  • hbase:用于实现版本文件及配置同步的两个shell脚本

    复制master节点上的版本内容到所有slaves节点上 注意: 1:版本目录做了软链接,如 ln -s hbase-0.94.6 hbase 2: 要根据实际情况,将/usr/local/修改为hbase所在的目录 #!/bin/bash # copy a new release of HBase from the masternode to all slave nodes # Rsyncs HBase files across all slaves. Must run on master.

    shell, hbase, rsync, 复制, 同步July 4

  • HBase 运行: WARN No appenders could be found for log

    1. 还是 HBase 0.99,根据前文编译成功源码后,按<HBase 源码-Start Server>,碰到错误提示: log4j:WARN No appenders could be found for logger (org.apache.hadoop.hbase.util.VersionInfo). log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.

    log4j, hbase, loggerJuly 1

  • HBase 源码编译错误: RpcServer.java: cannot find symbol

    1. 最近更新到 HBase 0.99,这次是按官方链接,git clone 代码完成后,使用命令行进行编译 mvn clean install -DskipTests 结果出现以下错误 [INFO] Reactor Summary: [INFO] [INFO] HBase ............................................. SUCCESS [3.653s] [INFO] HBase - Common ...........................

    hbase, 0.99, RpcServer.java, cannotfindsymbolJune 26

  • Hadoop生态上几个技术的关系与区别:hive.pig.hbase 关系与区别

    初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系这里我帮大家理清每个技术的原理和思路. Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不

    pig, hbase, hadoop, hiveMay 29

  • hbase0.98 coprocessor Endpoint 之 HelloWorld

    介绍: 源博地址: http://www.cockybook.com/?p=35 HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立"二级索引",难以执行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hbase中,统计数据表的总行数,需要使用Counter方法,执行一次MapReduce Job才能得到.虽然HBase在数据存储层中集成了MapReduce,能够有效用于数据表的分布式计算.然而在很多情况下,做一些简单的相加或者聚合计算的时候,如果直接将计算过程

    hbase, endpoint, coprocessorMay 15

  • Hadoop上路_15-HBase0.98.0入门
    Hadoop上路_15-HBase0.98.0入门

    以下操作在Hadoop分布式集群基础上进行. 一.分布式环境搭建 下载:http://www.apache.org/dyn/closer.cgi/hbase/ ,hbase-0.98.0-hadoop2-bin.tar.gz. 1.在master主控机安装HBase 1)解压 SHELL$ tar -zxvf hbase-0.98.0-hadoop2-bin.tar.gz SHELL$ mv hbase-0.98.0-hadoop2 ~/hbase0.98.0hadoop2 2)配置环境变量 (

    hbase, hadoop, 分布式, 2.3.0, 0.98.0April 3

  • phoenix的bug? (官方已确认是bug,并在2.2.3中修复)

    直接贴测试结果吧 0: jdbc:phoenix:localhost> create table test(key_1 char(3) not null, key_2 char(4) not null, value varchar(8) CONSTRAINT pk PRIMARY KEY (key_1,key_2)) split on('000','100','200'); 0: jdbc:phoenix:localhost> upsert into test values('000','aa

    hbase, phoenixFebruary 23

  • HBase 0.94之后Split策略

    HBase 0.94中的Split策略 HBase 0.94之前版本中,split使用的是ConstantSizeRegionSplitPolicy.当region中文件大小超过配置中所指定大小时,会进行切分. 而在0.94版本之后,默认split策略修改为了IncreasingToUpperBoundRegionSplitPolicy.该策略使用了另一种方法来计算是否应当切割,导致原先的参数失效. 该方法中的分配策略,是根据table中region的个数平方,乘以memstore的大小.得出应

    hbase, SplitFebruary 7