一、Shell命令
通用命令
- help:查询hbase中所有命令得帮助文档 e.g. help ‘status’
- status: 查询当前hbase得集群状态
- table_help:引用表得命令
命名空间命令
- list_namespace:查询所有得命名空间(默认有hbase,default)
- list_namespace_tables:查询命名空间下面的tables
- create_namespace:创建namespace
- describe_namespace:查询命名空间信息
- alter_namespace 修改命名空间
- drop_namespace 删除命名空间
DDL命令
- create 建表命令 create ‘命名空间:表名’ {name=>‘列簇名’,version=>最多版本号}
- list 查询所有表
- describe 查询表结构 describe ‘命名空间:表名’
- alter 修改表 alter ‘命名空间:表名’,{name=>‘列簇名’}
- drop/disable/enable 删除表 先让表失效(disable) 然后在删除(drop)
DML命令
- put 插入数据 put ‘表名’ ,‘rowkey’,‘列簇:列’,‘value’
- scan 扫描表信息
- scan ‘t1’,{raw=>true,version=>5} 查询指定版本数据
- scan ‘t1’ ,{column =>‘列簇:列名’}查询指定列数据
- can ‘t1’ ,{column=>[‘列簇’],limit=>10 ,startrow =>‘001’} 分页查询
- get ‘t1’ ,‘rowkey’ ,‘列簇:列名’ 获取指定表指定列簇的信息
- incr ‘t1’,‘005’,'列簇:列’插入一条数据 插入的数据的值可以自增长 但是数据类型不是String
二、布隆过滤器
- 定义
Bloom filter 是基于二进制向量的数据结构,具有很好的空间和时间效率。一般用作于检测一个元素是否在一个指定的集合中,如果检测是true,但是不能百分之百保证存在,如果false则必然不存在 - 应用范围
应用于爬虫中。 - 在hbase中运用
减少特定的访问模式(get/scan)的查询时间,会少量消耗内存和内存负担
①none:不适用布隆过滤去
②row:行键使用布隆过滤去
③rowcol:行建和列簇使用。细度更细