HBase的布隆过滤器

  • 布隆过滤器是一种算法,可以实现用很小的空间和运算代价,来实现海量数据的存在与否的记录
    • 如爬虫系统中可以用布隆过滤器来实现快速判断一个url是否爬取过
    • 如hbase中regionserver可以用布隆过滤器来快速判断一个rowkey是否存在于一个hfile文件
  • 思想:
    • 准备一个较长的字节数组
    • 将存量数据中的每一个数据,用一个特定算法映射成若干个特定位置上的1,记录在数组中
    • 将要判断的数据,用同样的算法映射出特定位置,到数组中去查看是否全部匹配,若全部匹配,说明这个数据99%是存在的,否认100%不存在
  • hbase的regionserver中对布隆过滤器的应用示意图

相关文章

超详细的记录了HBase 集群搭建的整个过程,以及搭建过程出现...
头歌 HBase(相关的五个实验)
1.创建一个学生信息表,用来存储学生的姓名(姓名作为行键,...
大数据课程综合实验案例1 案例简介1.1 案例目的1.2 适用对象...
HBase从浅入深,(初级)什么是HBase,模型,NOSQL,架构,n...
Hadoop之Hbase安装和配置