原创 Hive中對科學計數法表示的字符串的轉換
Hive中int , float , double這些數值類型在存儲大額度數字時,在前端展現上總是使用科學計數法來表示,例如: hive> select pow(10,8) from dual; OK 1.0E8 其實無論是普
原创 批量Load到HBase
hbase提供了寫的操作,通常,我們可以採用HBase的Shell 客戶端或者Java API進行操作。 如果數據量大的話,這兩種操作是很費時的。其實如果瞭解了HBase的數據底層存儲的細節的話,HBase的數據存儲格式是HFile定
原创 hbase 調優
1. 關於內存 hbase.hregion.memstore.mslab.enabled 默認值:true說明:減少因內存碎片導致的Full GC,提高整體性能。調優:詳見 http://kenwublog.com/avoid-fu
原创 Hive優化2
hive.optimize.cp=true:列裁剪hive.optimize.prunner:分區裁剪hive.limit.optimize.enable=true:優化LIMIT n語句hive.limit.row.max.siz
原创 liunx $
$# 是傳給腳本的參數個數 $0 是腳本本身的名字 $1 是傳遞給該shell腳本的第一個參數 $2 是傳遞給該shell腳本的第二個參數 $@ 是傳給腳本的所有參數的列表 $* 是以一個單字符串顯示所有向腳本傳遞的參數,與位置變量不
原创 壓測工具
locust、ab
原创 hbase根據filter export import
hbase的刪除功能比較弱,只能單行刪除,而且必須指定rowkey。 遇到問題: 今天遇到一個需求,用戶導入了大量錯誤的數據,數據的rowkey開頭都是110102,需要刪除這些垃圾記錄,用hbase shell刪除實在不科學。
原创 用hbase(0.92版本以上)的協處理器實現快速返回查詢結果總數 .
在0.92版本的hbase上添加了協處理器的功能,協處理器分爲兩大部分 endpoint和observer. observer相當於一個鉤子的作用,根據鉤子運行的模塊來劃分,又分成三個 RegionObserver:用這個做數據操縱事件,
原创 系統吞吐量(TPS)、用戶併發量、性能測試概念和公式
PS:下面是性能測試的主要概念和計算公式,記錄下: 一.系統吞度量要素: 一個系統的吞度量(承壓能力)與request對CPU的消耗、外部接口、IO等等緊密關聯。 單個reqeust 對CPU消耗越高,外部系統接口、IO影
原创 Hive中的一種假NULL
Hive中有種假NULL,它看起來和NULL一摸一樣,但是實際卻不是NULL。 例如如下這個查詢: hive> desc ljn004; OK a string Time taken: 0.237 seconds
原创 Hive 優化
Hive 針對不同的查詢進行了優化,優化可以通過配置進行控制,本文將介紹部分優化的策略以及優化控制選項。 列裁剪(Column Pruning) 在讀數據的時候,只讀取查詢中需要用到的列,而忽略其他列。例如,對於查詢: SELECT a,
原创 Maven 集成Tomcat插件
Maven已經是Java的項目管理標配,如何在JavaEE開發使用Maven調用Web應用,是很多同學關心的問題。本文將介紹,Maven如何介紹Tomcat插件。 Maven Tomcat插件現在主要有兩個版本,tomcat-ma