原创 sqoop系列-增量優化 fecth-size填坑記

原因描述 用戶表6月3、8、9號 在覈心項目啓動前導入未就緒 導入明顯比平時長 3號出現超時是排查發現該表爲全量導入,當時聯繫業務開發添加增量字段索引,業務開發答覆10號左右上線新版本添加,9號添加了version索引,9號添加

原创 Oozie系列-Action失敗重試,不生效排查

失敗重試 問題描述 項目中配置了 retry-max=“3” retry-interval=“2” 但是任務error並不重試。 workflow的xml配置如下 <workflow-app name="etl_ds_hive2_

原创 HBase系列-合併Region

背景 隨着接入的業務增多和單業務數據量的增大,hbase的region數量迅速增長。hbase中RegionServer管理的region數量是有上限建議的,參見 HBase系列-RegionServer管理region數量上限

原创 sqoop系列-sqoop MySQL 導入Hive JSON 字段亂碼

問題簡介 最近業務方反饋依照導入MySQL表導入Hive有部分字段變更亂碼,於是乎走上了解決亂碼的不歸路。 集羣信息 服務器系統版本:centos 7.2 cdh 版本:cdh5.9.0 hadoop 版本:2.6.0+cdh5.

原创 HBase系列-RegionServer管理region數量上限

RegionServer管理region數量上限 在生產場景中,如果擁有大量數據,通常會關注每臺服務器可以擁有的最大region數。region的最大數量主要由memstore內存使用量決定。每個region都有自己的memstore

原创 Atlas系列-Apache Atlas 獨立部署和HA

用編譯集成的hbase和sorl部署的apache atlas請參見之前的文章:Atlas系列-編譯部署 此次介紹的是 集成以獨立部署好的 kakfa,solr,hbase的部署方式 本次部署包含一下六部分: apache atla

原创 oozie系列-Java action 輸出變量下一級action調用

步驟描述 workflow xml 配置 java 代碼輸出 workflow xml 配置 備註: 必須添加 <capture-output/> <workflow-app xmlns='uri:oozie:workflow:0.

原创 Hive系列-unix_timestamp 問題

問題描述 環境測試集羣 服務器系統版本:centos 7.2 cdh 版本:cdh5.9.0 hadoop 版本:2.6.0+cdh5.9.0 hive 版本:1.1.0+cdh5.9.0 nodeManger 節點:cdh00

原创 sqoop系列-sqoop MongoDB導入Hive方案

方案 最近數據異構的項目時需要將MongoDB的數據導入Hive數據倉庫中,總結了下,得出一下四種導入方案 1. mongoexport json文件導入 2. mongoexport csv文件導入 3. hive映射mon

原创 sqoop系列-TextSplitter踩坑記

問題簡介 今天早上在數據異構項目中導入添加一個mysql導入hive任務,添加後跑任務,任務執行完,界面日誌無報錯。但是hive中並沒生成對應的表。初步定位腳本執行報錯,但是沒有返回到界面。 環境測試集羣 服務器系統版本:centos

原创 cloudera-manager系列-指定jdk的集中方式

配置所有機器jdk版本 方式如圖: 操作如圖所示 點擊主機下拉框 選取所有主機,並單擊 轉跳到新頁面後,點擊配置 轉調到新頁面後,在檢索框中輸入:java 在java主目錄中配置JAVA_HOME 所在的位置 點擊保存更改

原创 Atlas系列-編譯部署

Apache Atlas 簡介 Apache Atlas是Hadoop社區爲解決Hadoop生態系統的元數據治理問題而產生的開源項目,它爲Hadoop集羣提供了包括數據分類、集中策略引擎、數據血緣、安全和生命週期管理在內的元數據治理核心能

原创 sqoop系列-MySQL導入HIVE時間格問題

問題描述 服務器系統版本:centos 7.2 cdh 版本:cdh5.9.0 hadoop 版本:2.6.0+cdh5.9.0 sqoop 版本:1.4.6+cdh5.9.0 hive 版本:1.1.0+cdh5.9.0 My

原创 oozie系列-oozie簡介

oozie簡介 沒有華麗的文字描述直接上官方簡介翻譯,幾句話就能概括什麼是Oozie: Oozie是一個管理Hdoop作業(job)的工作流程調度管理系統 Oozie的工作流是一系列動作的直接週期圖(DAG) Oozie協調作業就是通過