HBase初探(二):Shell命令、布隆过滤器

一、Shell命令

通用命令

  1. help:查询hbase中所有命令得帮助文档 e.g. help ‘status’
  2. status: 查询当前hbase得集群状态
  3. table_help:引用表得命令

命名空间命令

  1. list_namespace:查询所有得命名空间(默认有hbase,default)
  2. list_namespace_tables:查询命名空间下面的tables
  3. create_namespace:创建namespace
  4. describe_namespace:查询命名空间信息
  5. alter_namespace 修改命名空间
  6. drop_namespace 删除命名空间

DDL命令

  1. create 建表命令 create ‘命名空间:表名’ {name=>‘列簇名’,version=>最多版本号}
  2. list 查询所有表
  3. describe 查询表结构 describe ‘命名空间:表名’
  4. alter 修改表 alter ‘命名空间:表名’,{name=>‘列簇名’}
  5. drop/disable/enable 删除表 先让表失效(disable) 然后在删除(drop)

DML命令

  1. put 插入数据 put ‘表名’ ,‘rowkey’,‘列簇:列’,‘value’
  2. scan 扫描表信息
  3. scan ‘t1’,{raw=>true,version=>5} 查询指定版本数据
  4. scan ‘t1’ ,{column =>‘列簇:列名’}查询指定列数据
  5. can ‘t1’ ,{column=>[‘列簇’],limit=>10 ,startrow =>‘001’} 分页查询
  6. get ‘t1’ ,‘rowkey’ ,‘列簇:列名’ 获取指定表指定列簇的信息
  7. incr ‘t1’,‘005’,'列簇:列’插入一条数据 插入的数据的值可以自增长 但是数据类型不是String

二、布隆过滤器

  1. 定义
    Bloom filter 是基于二进制向量的数据结构,具有很好的空间和时间效率。一般用作于检测一个元素是否在一个指定的集合中,如果检测是true,但是不能百分之百保证存在,如果false则必然不存在
  2. 应用范围
    应用于爬虫中。
  3. 在hbase中运用
    减少特定的访问模式(get/scan)的查询时间,会少量消耗内存和内存负担
    ①none:不适用布隆过滤去
    ②row:行键使用布隆过滤去
    ③rowcol:行建和列簇使用。细度更细
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章