第二章 大数据Hadoop生态圈之Hbase

(一)概念与特性

hbase是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统
它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化的半结构化的松散数据。
与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。

(二)hbase表结构

HBase中的表一般有这样的特点:

大:一个表可以有上10亿行,上100万列
面向列:面向列(族)的存储和权限控制,列(族)独立检索。
稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。
hbase表中,只支持一种数据类型:byte[]
hbase的表中,列族和kv都会自动排序,排序的规则是按照列族名和列名的字典顺序
行也会排序,根据行健的字典顺序

(三)逻辑视图

HBase以表的形式存储数据。表有行和列组成。列划分为若干个列族(row family)

相关文章

超详细的记录了HBase 集群搭建的整个过程,以及搭建过程出现...
头歌 HBase(相关的五个实验)
1.创建一个学生信息表,用来存储学生的姓名(姓名作为行键,...
大数据课程综合实验案例1 案例简介1.1 案例目的1.2 适用对象...
HBase从浅入深,(初级)什么是HBase,模型,NOSQL,架构,n...
Hadoop之Hbase安装和配置