原创 chd6.0.1 kerberos安裝碰到問題:
1.rsync -av /etc/krb5.conf bigdata-beta3:/etc/krb5.conf bash: rsync: command not found rsync: connection unexpectedly
原创 hive常見語句
1.hive -e 1.在hive中我們有時期望執行一個或者多個查詢(使用分號分隔),執行結束後hive cli立即退出。hive提供了這樣的功能,我們可以通過hive -e實現: 臨時應急時可以使用這個功能將查詢結果保存到一個文件中。增
原创 python批量從sqlserver導表到hive
最近團隊要從公司某個部門拉取業務數據,由於某部門的數據庫是sqlserver,沒有生成hive表的腳本,於是自己寫了個粗糙版,裏邊有自動生成跑任務腳本的部分,就懶得貼了,自己定義個啓動腳本模板定義就去行了 #!/usr/bin/env
原创 關於MapReduce任務發生錯誤的解決方式
在工作中當一個任務失敗並且沒有足夠的記錄信息來診斷錯誤時,可以選擇用調試器運行任務。當在集羣上運行作業時,不知道哪個節點處理哪部分內容,故不能在錯誤發生前按照調試器。故 第一種方式是: 在本地重新產生錯誤,對於
原创 chd6.2 NFS Gateway fails to start
今天讓運維給集羣升級了點內存,升級完成,重啓集羣過程中遇到一臺機器的hdfs的NFS Gateway fails to start,查看日誌顯示: ERROR org.apache.hadoop.oncrpc.RpcProgram:
原创 cdh hbase啓動master報: failed on connection exception: org.apache.hbase.thirdparty.io.netty.channel
今天在cdh裝hbase時,本來以爲幾分鐘就完事了,結果,,,裝完後,hmaster啓動不起來,看日誌報如下錯誤: ERROR org.apache.hadoop.hbase.master.HMaster: Failed to beco
原创 MAC IDEA完美添加anaconda
最近要在idea裏進行一些python開發,創建好項目後發現是自帶的python3包,不是我環境裏配置的anaconda,這導致我引入pandas包時報錯,於是就只能自己手動添加anaconda了,話不多說操作如下圖: 點此選項後,選中
原创 spark連接JDBC 報 Task not serializable問題
有個簡單需求用spark解析一個配置文件存入數據庫,在操作中,爲了高效使用了spark的foreachPartition算子,結果呢,一直告訴我: 看最下邊日誌原因告訴我是jdbc無法序列化導致的,於是打算重寫jdbc類實現序列話,結果,
原创 BI metabase使用sparksql
參考網址 https://immm.in/archives/24.html 其中metabase啓動爲中文版的方式爲: nohup java -Duser.country=CN -Duser.language=zh -jar /opt/
原创 ES7.4安裝遇到坑
在安裝過程中只配置了cluster.initial_master_nodes 屬性,沒有配置discovery.seed_hosts 啓動的時候遇到如下倆個錯誤: [1]: memory locking requested for ela
原创 CDH新集羣沒有hive創建表權限記錄
1.集羣裝好後在hive創建表時遇到FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(mes
原创 Hive查看相關分區語句
show partitions log_messages; describe extended log_messages:該語句會將分區鍵作爲表的模式的一部分,和partitionKeys列表內容同時進行顯示: 如果我們想查看分區數據實
原创 azkaban-3.81.1錯誤記錄
錯誤問題如下: 1.Azkaban報錯-azkaban.executor.ExecutorManagerException: No active executors found 解決辦法: 問題得到解決。 2.打開azkaban
原创 HUE操作Sentry
使用HUE 使用sentry管理員登錄hue,如hive用戶 選擇server1,點選click here to add some 輸入角色名字admin,要賦予的組名prod_cdh_admins,選擇ALL表示授予server1的全
原创 spark內存管理說明
spark內存有幾種不同的用途,理解並調優spark的內存使用方法有利於幫助優化spark的應用。在各個執行器中,內存有如下幾種用途。 1.RDD存儲 當調用persist或cache方法時,這個RDD的分區會被存儲到緩存區中。s