原创 chd6.0.1 kerberos安裝碰到問題:

 1.rsync -av /etc/krb5.conf  bigdata-beta3:/etc/krb5.conf bash: rsync: command not found rsync: connection unexpectedly

原创 hive常見語句

1.hive -e 1.在hive中我們有時期望執行一個或者多個查詢(使用分號分隔),執行結束後hive cli立即退出。hive提供了這樣的功能,我們可以通過hive -e實現: 臨時應急時可以使用這個功能將查詢結果保存到一個文件中。增

原创 python批量從sqlserver導表到hive

最近團隊要從公司某個部門拉取業務數據,由於某部門的數據庫是sqlserver,沒有生成hive表的腳本,於是自己寫了個粗糙版,裏邊有自動生成跑任務腳本的部分,就懶得貼了,自己定義個啓動腳本模板定義就去行了 #!/usr/bin/env

原创 關於MapReduce任務發生錯誤的解決方式

在工作中當一個任務失敗並且沒有足夠的記錄信息來診斷錯誤時,可以選擇用調試器運行任務。當在集羣上運行作業時,不知道哪個節點處理哪部分內容,故不能在錯誤發生前按照調試器。故 第一種方式是:               在本地重新產生錯誤,對於

原创 chd6.2 NFS Gateway fails to start

今天讓運維給集羣升級了點內存,升級完成,重啓集羣過程中遇到一臺機器的hdfs的NFS Gateway fails to start,查看日誌顯示:   ERROR org.apache.hadoop.oncrpc.RpcProgram:

原创 cdh hbase啓動master報: failed on connection exception: org.apache.hbase.thirdparty.io.netty.channel

今天在cdh裝hbase時,本來以爲幾分鐘就完事了,結果,,,裝完後,hmaster啓動不起來,看日誌報如下錯誤:  ERROR org.apache.hadoop.hbase.master.HMaster: Failed to beco

原创 MAC IDEA完美添加anaconda

最近要在idea裏進行一些python開發,創建好項目後發現是自帶的python3包,不是我環境裏配置的anaconda,這導致我引入pandas包時報錯,於是就只能自己手動添加anaconda了,話不多說操作如下圖: 點此選項後,選中

原创 spark連接JDBC 報 Task not serializable問題

有個簡單需求用spark解析一個配置文件存入數據庫,在操作中,爲了高效使用了spark的foreachPartition算子,結果呢,一直告訴我: 看最下邊日誌原因告訴我是jdbc無法序列化導致的,於是打算重寫jdbc類實現序列話,結果,

原创 BI metabase使用sparksql

參考網址 https://immm.in/archives/24.html 其中metabase啓動爲中文版的方式爲: nohup java -Duser.country=CN -Duser.language=zh -jar /opt/

原创 ES7.4安裝遇到坑

在安裝過程中只配置了cluster.initial_master_nodes 屬性,沒有配置discovery.seed_hosts 啓動的時候遇到如下倆個錯誤: [1]: memory locking requested for ela

原创 CDH新集羣沒有hive創建表權限記錄

1.集羣裝好後在hive創建表時遇到FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(mes

原创 Hive查看相關分區語句

show partitions log_messages; describe extended log_messages:該語句會將分區鍵作爲表的模式的一部分,和partitionKeys列表內容同時進行顯示: 如果我們想查看分區數據實

原创 azkaban-3.81.1錯誤記錄

錯誤問題如下: 1.Azkaban報錯-azkaban.executor.ExecutorManagerException: No active executors found 解決辦法:   問題得到解決。  2.打開azkaban

原创 HUE操作Sentry

使用HUE 使用sentry管理員登錄hue,如hive用戶 選擇server1,點選click here to add some 輸入角色名字admin,要賦予的組名prod_cdh_admins,選擇ALL表示授予server1的全

原创 spark內存管理說明

spark內存有幾種不同的用途,理解並調優spark的內存使用方法有利於幫助優化spark的應用。在各個執行器中,內存有如下幾種用途。 1.RDD存儲     當調用persist或cache方法時,這個RDD的分區會被存儲到緩存區中。s