原创 Hadoop 調試利器
export HADOOP_ROOT_LOGGER=DEBUG,console 調試利器
原创 hadoop append 追加文件 錯誤
Exception in thread "main" java.io.IOException: Failed to replace a bad da
原创 Hbase 查詢爲什麼快
第一、數據分區存儲(region) 通過rowkey可以快速地位到在那個region上,位置信息保存在hbase的meta表裏。 每次查詢都會有location cache的,所以htable裏面的Hconnection 初始化的時
原创 基本存儲引擎比較
1、Hash存儲引擎 代表數據庫:redis、memcache等 通常也常見於其他存儲引擎的查找速度優化上。 Hash 索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree 索引需要
原创 hbase維護操作命令
1、基本命令: 建表: create 'hbase_t_m_user_personalmodel_recommend','modelinfo','recommendlist','baseinfo'; 也可以建表時
原创 hadoop 2.4.0 使用distcp有關問題解決
hadoop distcp hftp://nn.xxx.xx.com:50070/user/nlp/warehouse/t_m_user_key_action /user/nlp/warehouse/dw1 出現 Caused
原创 HFile V2介紹[0.92到0.98之前的版本]
在hbase 0.92版本中,爲了改進在大數據存儲下的效率,HFile做了改變。HFile V1的主要問題是,你需要加載(load)所有的單片索引和BloomFilter到內存中,這會導致每臺服務器有數GB的內存被塊索引消耗掉,
原创 文檔型數據庫CouchBase應用實踐
在移動互聯網時代,我們面對的是更多的客戶端,更低的請求延遲,這當然需要對數據做大量的 Cache 以提高讀寫速度。 現有 Cache 系統的特點 目前業界使用得最多的 Cache 系統主要是 memcached 和 redis。
原创 MemStoreChunkPool&MSLAB提升HBASE GC性能
Jvm使用過程中,一個比較重要的概念就是GC,Hbase是使用JAVA語言開發的,JVM的GC優化也是比較重要的一個優化方法。Hbase中對於寫的數據key/value大小不固定,有可能有很對比較小即
原创 Hbase schema&table 設計實踐
1、rowkey設計不要連續,最好是hash後的結果,避免連續寫單個region server壓力過大。 2、columnfamily儘量少,原因是過多的columnfamily之間會互相影響 3、VERSIONS 最大版
原创 hbase HFile V3介紹
HBase 0.98開始增加了對cell tags的支持,所以其HFile結構也發生了改變。HFile V3的格式只是在V2格式後增加了標籤部分。其他保持不變,所以對V2保持了兼容性。用戶可以從V2直接切換到V3。 HFile V
原创 大數據時代下的個性化服務
身處大數據時代,禮品企業有更多的機會去了解消費者,甚至會比消費者自己還要了解自己的需求。但事實上鮮有客戶真正獲得精準、貼心的個性化服務,是禮品企業不夠用心還是客戶太挑剔?個性化服務落地難的箇中緣由到底是什麼?身處在數據時代,禮品企業如何
原创 greenplum交互分區用於數據增量和數據壓縮變更
greenplum屬於MPP數據庫的一種,也是建立數據倉庫的常用MPP database。greenplum 對於分區表的數據是採用單個表,即分區表是獨立的一個邏輯表和物理表,則每個分區有單獨的自己的索引等信息,非常適合大數據增
原创 大數據時代的解析
大數據時代的到來,數據倉庫日顯重要,如何建立好的數據部門,其實是每個公司都應該重視的問題,做數據是需要數據思想+工程思想結合。第一、數據是分爲處理、規範存儲、建模分析的三個過程。 1、“大數據”所處理的數據,還包含半結構化或
原创 開源項目Marathon:讓你的數據中心像谷歌一樣運行
去年的時候, Marathon的項目進行了開源,它的設計宗旨就是讓用戶在同一組服務器之上,更智能地運行多種應用程序和服務——Hadoop、Storm,甚至一個標準的Web應用。Marathon出自於一家初創公司 Mesosphere之