原创 hive多用戶使用的配置

    在使用hive的過程中,難免會遇到多用戶使用的問題。在配置上主要分兩個大的步驟來完成。    我配置的版本是cdh5.0,對應的hive版本是0.12    假設現在用戶tom想通過hive對數據庫order的order_item表

原创 MRv2內存監控強殺Container問題解決

        線上某個hive job運行失敗,報錯如下    Container [pid=28474,containerID=container_1411897705890_0181_01_000012] is running bey

原创 利用QJM實現HDFS自動主從切換(HA Automatic Failover)源碼詳析

    最近研究了下NameNode HA Automatic Failover方面的東西,當Active NN因爲異常或其他原因不能正常提供服務時,處於Standby狀態的NN就可以自動切換爲Active狀態,從而到達真正的高可用    

原创 我的友情鏈接

51CTO博客開發

原创 spark sql on hive初探

    前一段時間由於shark項目停止更新,sql on spark拆分爲兩個方向,一個是spark sql on hive,另一個是hive on spark。hive on spark達到可用狀態估計還要等很久的時間,所以打算試用下s

原创 spark讀寫壓縮文件API使用詳解

    最近研究了下Spark如何讀寫壓縮格式的文件,主要有如下三種方式,這裏以lzo方式壓縮爲例    /*******************old hadoop api*************************/     va

原创 JobTracker OutOfMemory Error

    線上集羣目前使用的hadoop版本是CDH4.3.0,已經發生過兩次jt的oom異常了,嚴重影響了線上作業的運行。剛開始的時候,通過減小retirejob的cacheSize和interval來減小jt的堆內存佔用,起到了一定的效果

原创 Impala升級(CDH4->CDH5)踩坑經歷

    首先按照CDH官方文檔對Impala進行升級,但是升級後有幾個小問題需要注意下。    在shell環境下,輸入正常的SQL語句,報錯如下        從報錯信息上可以看出是在讀取Hive Metadata過程中出了問題。由於在C

原创 Hive中配置Parquet(CDH4.3)

    CDH4.3版本中並沒有提供現成的Parquet安裝包,所以如果在Hive或Impala中需要使用Parquet格式,需要手動進行安裝,當創建Parquet格式的表時,需要定義Parquet相關的InputFormat,Output

原创 hadoop作業log存儲方式及解析

    目前我們會把MapReduce Job運行完成後的Task運行的相關信息(status,cpu_time等)記錄到後臺DB中,監控系統會根據DB中記錄的Task運行的相關信息,自動化預警。這些信息主要是從Job運行完成之後產生的相關

原创 Storm進程通信機制分析

    本文主要分析storm的worker進程間消息傳遞機制,消息的接收和處理的大概流程見下圖                在Storm中,worker進程內部的thread通信與worker進程間的通信有一些差別,worker間的通信

原创 hue3.5.0使用初探(cdh版本 附後續問題解決)

    之前一直用phpHiveAdmin,也一直在關注hue,最近打算調研一下hue,hue在最近兩年發展很快,頁面效果和功能上都有很大程度的提升,所支持的服務也越來越多,除了hive,hbase,目前還支持sqoop,impala,pi

原创 spark sql on hive初探

    前一段時間由於shark項目停止更新,sql on spark拆分爲兩個方向,一個是spark sql on hive,另一個是hive on spark。hive on spark達到可用狀態估計還要等很久的時間,所以打算試用下s

原创 DataNode與NameNode交互機制相關代碼分析

    HDFS Federation是爲解決HDFS單點故障而提出的NameNode水平擴展方案,該方案允許HDFS創建多個Namespace以提高集羣的擴展性和隔離性。在Federation中新增了block-pool的概念,block

原创 hive任務提交的相關權限認證詳析

    最近在研究Hue,遇到一個問題,在Hive Editor寫一個HQL,提交後會報權限錯誤,類似這樣的Authorization failed:No privilege 'Select' found for inputs {datab