原创 在HDP安裝的yarn基礎上,自定義安裝個spark on yarn

一、概述 通常用HDP+AMBARI安裝的spark on yarn 模式可以正常使用,但是缺點是spark版本是HDP包中固定好的,極其不靈活,目標就是使用HDP+AMBARI安裝的yarn , 然後spark自己部署,保證自己

原创 Spark 當中map,flatMap,mapPartitions的區別以及示例

這幾天學習看了map以及flatMap還有mapPartitions,然後寫一篇博文記錄一哈,以免自己忘了,如果有寫錯的地方,一定要不留情面的指出來! Spark 當中map,flatMap,mapPartitions map:對

原创 yarn 問題總結 (目前遇到的問題)

以下爲使用yarn過程中遇到的問題,會持續更新,也當做是個個人筆記吧,好記性不如爛筆頭。 一、部分nodemanager節點狀態變爲unhealthy 現象: 首先會在ambari界面看到有兩臺機器上的nodemanager被標誌位unh

原创 二、用IDEA導入spark源碼,並在本地運行standlone

上面我們編譯了源碼,然後我們接下來用idea將源碼導入到開發工具,並在idea上啓動standlone的master和slave,方便我們調試。 1將項目導入到idea當中 然後open as project即可。我看網上很多說,

原创 一、Spark 2.4.0 源碼編譯

1.環境準備 JAVA java的話,直接安裝個1.8就行了,配置好環境變量和JAVA_HOME,在cmd當中java一下,確認java安裝好即可。 scala scala安裝和java類似,把Scala安裝包解壓,然後配

原创 Hive:安裝Hive遇到的一些問題 (Remote Server Mode模式)

1.Starting Hive Metastore Server 出現 com.mysql.cj.core.exceptions.CJCommunicationsException: Communications link failur

原创 OpenTSDB TCollector 詳解

tcollector是一個客戶端程序,用來收集本機的數據,並將數據發送到OpenTSDB。 OpenTSDB被設計的收集和寫入數據非常簡單,有一個簡單的協議,即使是一個shell腳本也可以用來發送數據。 但是,做到可靠和一致性就有些困難了

原创 使用yarn 過程中遇到的問題

以下爲使用yarn過程中遇到的問題,會持續更新,也當做是個個人筆記吧,好記性不如爛筆頭。 一、部分nodemanager節點狀態變爲unhealthy 現象: 首先會在ambari界面看到有兩臺機器上的nodemanager被標誌位unh

原创 ClouderaManager java api 有關查詢api 使用。

首先pom中加上此依賴: <dependency> <groupId>com.cloudera.api</groupId> <artifactId>cloudera-manager-api</artif

原创 使用IDEA 搭建 spark on yarn 的開發環境+調試~

1.導入yarn和hdfs配置文件 因爲spark on yarn 是依賴於yarn和hdfs的,所以獲取yarn和hdfs配置文件是首要條件,將core-site.xml、hdfs-site.xml 、yarn-site.xml 這三

原创 Opentsdb插入數據導致RegionServer寫入請求分佈不均勻

1. 配置文件 首先先普及一下Opentsdb的配置文件是怎麼獲取的,根據官方介紹,在輸入Opentsdb啓動命令如果你沒有指定 –config的路徑的話,會自動搜索以下路徑來尋找配置文件: ./opentsdb.conf /etc/

原创 Opentsdb http 寫入常見問題

1.存入的Opentsdb的時間戳,一定不能爲0 metric=CID_1 ts=0 value=0.0 sn= 946168002784 carid=038588c0770840d0bf469b6149dbdce1 如果上方那個時間戳爲

原创 java.io.IOException: No FileSystem for scheme: hdfs

在用Scala寫spark時候,用了sc操作了hdfs,出現瞭如下錯誤: java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.Fi

原创 Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061) ----Hive schematool -initSchema

當我們輸入./schematool -initSchema -dbType mysql的時候,會出現以下錯誤 Metastore connection URL: jdbc:mysql://192.168.*./hive?createDat

原创 windows下搭建hadoop/spark環境常見問題

1。Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 解決方法: 下載個hadoop2.6-common-bin.zip,然後解壓 添加