原创 Hadoop _ 疑難雜症 解決1 - WARN util.NativeCodeLoader: Unable to load native-hadoop library for your plat

問題描述 : WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes

原创 安裝PGSQL(關係數據庫)

1、安裝 安裝依賴組件 yum install gcc zlib-devel 創建安裝包目錄/pkgs/ mkdir -p /pkgs 上傳相關的安裝包到/pkgs/ 目錄 postgresql-9.6.2.tar.gz 解壓 m

原创 CentOS安裝HDP集羣- 製作本地源

1. 下載資源 在官網上可以找到源地址,如圖: 以上做標記的都要下載,文件過大,時間有點慢,其中包含Ambari和HDP的源,一共7個文件: 這裏把包全放在/usr/local/src/Ambari/目錄下 這裏把包全放在/usr/l

原创 BlockingQueue

簡介 Queue是什麼就不需要多說了吧,一句話:隊列是先進先出。相對的,棧是後進先出。如果不熟悉的話先找本基礎的數據結構的書看看吧。  BlockingQueue,顧名思義,“阻塞隊列”:可以提供阻塞功能的隊列。  首先,看看Blocki

原创 yarn 日誌聚集配置

日誌聚集相關配置參數 日誌聚集是YARN提供的日誌中央化管理功能,它能將運行完成的Container/任務日誌上傳到HDFS上,從而減輕NodeManager負載,且提供一箇中央化存儲和分析機制。默認情況下,Container/任務日誌存

原创 運行在YARN上的Spark程序的Executor,Cores和Memory的分配

在跑Spark-On-Yarn程序的時候,往往會對幾個參數(num-executors,executor-cores,executor-memory等)理解很模糊,從而憑感覺地去指定值,這是不符合有追求程序員信仰的。因此,搞懂它們,很有必

原创 HDFS的fs.defaultFS的端口

查看所有正在使用的端口: netstat -ntlp 在hadoop2的HDFS中fs.defaultFS在core-site.xml 中配置,默認端口是8020,但是由於其接收Client連接的RPC端口,所以如果在hdfs-site

原创 Hadoop 之 日誌管理——應用在 YARN 中運行時的日誌

背景: 在寫這篇博文前,自己一直沒有弄明白一個問題,“在 Map 函數和 Reduce 函數中使用 System.out.print 打印日誌時,輸出內容在哪裏顯示?”。試了好多回,在 log/* 目錄下找了很久都沒有找到,並且嘗試了很多

原创 Spark on Yarn 單機環境搭建

前面已經安裝好hadoop和yarn:https://blog.csdn.net/qq_16504067/article/details/103401096 jdk1.8安裝包: 官方下載:http://www.oracle.com/t

原创 Flink 並行度詳解

TaskManager與Slot介紹      Flink的每個TaskManager爲集羣提供solt。 solt的數量通常與每個TaskManager節點的可用CPU內核數成比例。一般情況下你的slot數是你每個節點的cpu的核數。

原创 FactoryBean(創建複雜的Bean)

在Spring中有兩種類型的bean,一種是普通Bean,一種是工廠Bean,即FactoryBean。FactoryBean跟普通bean不同,其返回的對象不是指定類的一個實例,而是該FactoryBean的getObject方法所返

原创 yarn-cluster和yarn-client模式剖析

之前以standalone模式剖析過spark程序的執行流程,這裏來剖析下其他兩種模式(yarn-cluster和yarn-client)的區別。 一般yarn-client用於測試環境調試程序;yarn-cluster用於生產環境。看完

原创 關於《Spark快速大數據分析》運行例子遇到的報錯及解決

一、描述 在書中第二章,有一個例子,構建完之後,運行: ${SPARK_HOME}/bin/spark-submit --class com.oreilly.learningsparkexamples.mini.java.WordCou

原创 管理開機啓動:chkconfig

[root@localhost ~]$ ls /etc/init.d/httpd # /etc/init.d/目錄下必須有啓動腳本 [root@localhost ~]$ chkconfig --add httpd # 添

原创 大數據的一些相關知識介紹

什麼是大數據 大數據(big data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據的定義是