原创 cloudera manager和cdh離線安裝

cloudera manager和cdh離線安裝 前言 之前使用apache hadoop版本安裝部署集羣,需要自己控制各個組件版本,以及添加節點和服務要花很多時間,所以使用cloudera來進行安裝和管理,以及後期方便維護與升

原创 配置python鏡像源

安裝python第三方庫一般使用工具easy_install和pip,他們都是從Python的官方源pypi.python.org/pypi 下載到本地,然後解包安裝。 不過因爲某些原因,訪問官方的pypi不穩定,很慢甚至有些還

原创 hive sql join優化

1.分區過濾 分區過濾什麼什麼意思:如果不加分區,默認會掃描整個表的數據分區用什麼來描述:一般有時間,如year,month,day,hour,當正常表的字段使用怎麼知道一個表是否有分區 看錶的字段是否有類似“month,day,h

原创 開源組件介紹

點贊 收藏 分享 文章舉報 奇允 發佈了31 篇原創文章 · 獲贊 9 · 訪問量 3萬+ 私信 關注

原创 cloudera manager下的hive權限配置

前言 公司運營、BI以及財務不同部門不同人員需要hive數據查詢服務,所以需要分配不同的權限給相關人員 權限配置主要涉及兩項: - 認證(authentication):驗證用戶所用的身份是否是對的 - 授權(authoriza

原创 spark文檔彙總

1.spark的謠言粉粹系列 1.1 Spark Misconceptions 解釋了spark不是內存計算模型、spark對比hadoop並不能都快10x-100x、spark並不是什麼新的技術 1.2 spark系列

原创 登錄cloudera manager,並查詢impala query歷史java示例

通過java登錄cloudera manager,並進行impala query歷史查詢示例! package commons; import org.apache.commons.httpclient.Cookie; import o

原创 cloudera manager和cdh目錄空間報警解決

相信使用cloudera manager管理集羣最先遇到的一個問題就是目錄空間不夠 默認路徑都在系統盤,系統盤一般不會很大。所以最笨的辦法是安裝包的路徑和各個組件輸出路徑配置到其他大的目錄,但這種方式不利於維護! 我現在都是所有報

原创 mapreduce文檔彙總

1.mapreduce的map、shuffle、reduce過程 點贊 收藏 分享 文章舉報 奇允 發佈了31 篇原創文章 · 獲贊 9 · 訪問量 3萬+ 私信

原创 cloudera集成kafka

CDH這個大包沒有將kafka集成進來,所以單獨來說下kafka 既然kafka沒有被集成進來,爲什麼添加服務的時候能看到有kafka 所看到的其實是Kafka Custom Service Descriptor (CSD),

原创 hue相關

配置源碼支持下載編碼爲gb2312 默認下載編碼是UTF-8 源碼路徑:/opt/cloudera/parcels/CDH/lib/hue/desktop/core/src/desktop/lib/export_csvxls.p