原创 Hive中對科學計數法表示的字符串的轉換

Hive中int , float , double這些數值類型在存儲大額度數字時,在前端展現上總是使用科學計數法來表示,例如: hive> select pow(10,8) from dual; OK 1.0E8 其實無論是普

原创 批量Load到HBase

hbase提供了寫的操作,通常,我們可以採用HBase的Shell 客戶端或者Java API進行操作。 如果數據量大的話,這兩種操作是很費時的。其實如果瞭解了HBase的數據底層存儲的細節的話,HBase的數據存儲格式是HFile定

原创 hbase 調優

1. 關於內存 hbase.hregion.memstore.mslab.enabled 默認值:true說明:減少因內存碎片導致的Full GC,提高整體性能。調優:詳見 http://kenwublog.com/avoid-fu

原创 Hive優化2

hive.optimize.cp=true:列裁剪hive.optimize.prunner:分區裁剪hive.limit.optimize.enable=true:優化LIMIT n語句hive.limit.row.max.siz

原创 liunx $

$# 是傳給腳本的參數個數 $0 是腳本本身的名字 $1 是傳遞給該shell腳本的第一個參數 $2 是傳遞給該shell腳本的第二個參數 $@ 是傳給腳本的所有參數的列表 $* 是以一個單字符串顯示所有向腳本傳遞的參數,與位置變量不

原创 壓測工具

locust、ab

原创 hbase根據filter export import

hbase的刪除功能比較弱,只能單行刪除,而且必須指定rowkey。 遇到問題: 今天遇到一個需求,用戶導入了大量錯誤的數據,數據的rowkey開頭都是110102,需要刪除這些垃圾記錄,用hbase shell刪除實在不科學。

原创 用hbase(0.92版本以上)的協處理器實現快速返回查詢結果總數 .

在0.92版本的hbase上添加了協處理器的功能,協處理器分爲兩大部分 endpoint和observer. observer相當於一個鉤子的作用,根據鉤子運行的模塊來劃分,又分成三個 RegionObserver:用這個做數據操縱事件,

原创 系統吞吐量(TPS)、用戶併發量、性能測試概念和公式

PS:下面是性能測試的主要概念和計算公式,記錄下: 一.系統吞度量要素:   一個系統的吞度量(承壓能力)與request對CPU的消耗、外部接口、IO等等緊密關聯。 單個reqeust 對CPU消耗越高,外部系統接口、IO影

原创 Hive中的一種假NULL

Hive中有種假NULL,它看起來和NULL一摸一樣,但是實際卻不是NULL。 例如如下這個查詢: hive> desc ljn004; OK a       string Time taken: 0.237 seconds

原创 Hive 優化

Hive 針對不同的查詢進行了優化,優化可以通過配置進行控制,本文將介紹部分優化的策略以及優化控制選項。 列裁剪(Column Pruning) 在讀數據的時候,只讀取查詢中需要用到的列,而忽略其他列。例如,對於查詢: SELECT a,

原创 Maven 集成Tomcat插件

Maven已經是Java的項目管理標配,如何在JavaEE開發使用Maven調用Web應用,是很多同學關心的問題。本文將介紹,Maven如何介紹Tomcat插件。 Maven Tomcat插件現在主要有兩個版本,tomcat-ma