原创 hive多用戶使用的配置
在使用hive的過程中,難免會遇到多用戶使用的問題。在配置上主要分兩個大的步驟來完成。 我配置的版本是cdh5.0,對應的hive版本是0.12 假設現在用戶tom想通過hive對數據庫order的order_item表
原创 MRv2內存監控強殺Container問題解決
線上某個hive job運行失敗,報錯如下 Container [pid=28474,containerID=container_1411897705890_0181_01_000012] is running bey
原创 利用QJM實現HDFS自動主從切換(HA Automatic Failover)源碼詳析
最近研究了下NameNode HA Automatic Failover方面的東西,當Active NN因爲異常或其他原因不能正常提供服務時,處於Standby狀態的NN就可以自動切換爲Active狀態,從而到達真正的高可用
原创 我的友情鏈接
51CTO博客開發
原创 spark sql on hive初探
前一段時間由於shark項目停止更新,sql on spark拆分爲兩個方向,一個是spark sql on hive,另一個是hive on spark。hive on spark達到可用狀態估計還要等很久的時間,所以打算試用下s
原创 spark讀寫壓縮文件API使用詳解
最近研究了下Spark如何讀寫壓縮格式的文件,主要有如下三種方式,這裏以lzo方式壓縮爲例 /*******************old hadoop api*************************/ va
原创 JobTracker OutOfMemory Error
線上集羣目前使用的hadoop版本是CDH4.3.0,已經發生過兩次jt的oom異常了,嚴重影響了線上作業的運行。剛開始的時候,通過減小retirejob的cacheSize和interval來減小jt的堆內存佔用,起到了一定的效果
原创 Impala升級(CDH4->CDH5)踩坑經歷
首先按照CDH官方文檔對Impala進行升級,但是升級後有幾個小問題需要注意下。 在shell環境下,輸入正常的SQL語句,報錯如下 從報錯信息上可以看出是在讀取Hive Metadata過程中出了問題。由於在C
原创 Hive中配置Parquet(CDH4.3)
CDH4.3版本中並沒有提供現成的Parquet安裝包,所以如果在Hive或Impala中需要使用Parquet格式,需要手動進行安裝,當創建Parquet格式的表時,需要定義Parquet相關的InputFormat,Output
原创 hadoop作業log存儲方式及解析
目前我們會把MapReduce Job運行完成後的Task運行的相關信息(status,cpu_time等)記錄到後臺DB中,監控系統會根據DB中記錄的Task運行的相關信息,自動化預警。這些信息主要是從Job運行完成之後產生的相關
原创 Storm進程通信機制分析
本文主要分析storm的worker進程間消息傳遞機制,消息的接收和處理的大概流程見下圖 在Storm中,worker進程內部的thread通信與worker進程間的通信有一些差別,worker間的通信
原创 hue3.5.0使用初探(cdh版本 附後續問題解決)
之前一直用phpHiveAdmin,也一直在關注hue,最近打算調研一下hue,hue在最近兩年發展很快,頁面效果和功能上都有很大程度的提升,所支持的服務也越來越多,除了hive,hbase,目前還支持sqoop,impala,pi
原创 spark sql on hive初探
前一段時間由於shark項目停止更新,sql on spark拆分爲兩個方向,一個是spark sql on hive,另一個是hive on spark。hive on spark達到可用狀態估計還要等很久的時間,所以打算試用下s
原创 DataNode與NameNode交互機制相關代碼分析
HDFS Federation是爲解決HDFS單點故障而提出的NameNode水平擴展方案,該方案允許HDFS創建多個Namespace以提高集羣的擴展性和隔離性。在Federation中新增了block-pool的概念,block
原创 hive任務提交的相關權限認證詳析
最近在研究Hue,遇到一個問題,在Hive Editor寫一個HQL,提交後會報權限錯誤,類似這樣的Authorization failed:No privilege 'Select' found for inputs {datab