原创 Spark中RDD容錯機制Checkpoint

一:引入 ●持久化的侷限 Spark 在生產環境下經常會面臨transformation的RDD非常多或者具體transformation的RDD本身計算特別複雜或者耗時,這個時候就要考慮對計算結果數據的持久化: 如果把數據放在內存中,雖

原创 SparkSQL中SQL風格和DSL風格的使用

準備工作 讀取文件並轉換爲DataFrame或DataSet val lineRDD= sc.textFile("hdfs://node-01:9000/person.txt").map(_.split(" ")) case clas

原创 Hadoop命令大全(完整版)

hdfs常用命令: 第一部分:hdfs文件系統命令 第一類:文件路徑增刪改查系列: hdfs dfs -mkdir dir  創建文件夾 hdfs dfs -rmr dir  刪除文件夾dir hdfs dfs -ls  查看目錄文件信息

原创 Spark Mllib核心思想

SparkMLlib的簡介 MLLIB是Spark的機器學習庫。提供了利用Spark構建大規模和易用性的機器學習平臺,組件: ML 算法:包括了分類、聚類、降維、協同過濾 Featurization特徵化:特徵抽取、特徵轉換、特徵降維、特

原创 常用的消息隊列介紹以及對比

1、RabbitMQ RabbitMQ 2007年發佈,是一個在AMQP(高級消息隊列協議)基礎上完成的,可複用的企業消息系統,是當前最主流的消息中間件之一。 2、ActiveMQ ActiveMQ是由Apache出品,ActiveMQ

原创 MySQL數據庫面試題(2020最新版、最完整版)

這篇文章寫得非常不錯~~~ https://blog.csdn.net/ThinkWon/article/details/104778621?utm_medium=distribute.pc_relevant.none-task-blog

原创 TOGAF架構學習總結

TOGAF架構學習總結 -----以下只是學習TOGAF的個人總結和轉抄、轉載彙總  並非完全自創       作於一個架構師尤其是企業架構師來說,豐富的理論知識可以幫助他在架構規劃及管理過程中站在更高的角度去看待問題,歷史發展原因有很多

原创 kafka架構內部細節剖析

說明:kafka支持消息持久化,消費端爲拉模型來拉取數據,消費狀態和訂閱關係有客戶端負責維護,消息消費完 後,不會立即刪除,會保留歷史消息。因此支持多訂閱時,消息只會存儲一份就可以了。   Broker:kafka集羣中包含一個或者多個

原创 Kafka中消息隊列的兩種模式

消息隊列包括兩種模式,點對點模式(point to point, queue)和發佈/訂閱模式(publish/subscribe,topic) 1、點對點模式 點對點模式下包括三個角色: 消息隊列 發送者 (生產者) 接收者(消費者)

原创 利用Maven插件將依賴包、jar/war包及配置文件輸出到指定目錄(完整版)

寫在前面 ​ 最近遇到一個朋友遇到一個項目需要將maven的依賴包和配置文件分開打包然後用腳本執行程序。這樣的好處在於可以隨時修改配置文件內容及查看jar包。如果將所有打成一個jar包就會有個問題(例如:修改數據庫連接位置需要重新打包這樣

原创 Hue中hiveSQL執行報錯“list index out of range”

問題:         在hue中執行HiveSQL報錯 日誌報錯:  1.desktop_document2的is_trashed類型設置有問題。 2.hue庫裏的django_content_type表少一個name字段。 解決

原创 Linux中Crontab 與 超級用戶特殊區別之環境變量(Crontab 定時執行shell腳本報錯GSS initiate faild )

情況說明:                linux中執行shell腳本使用root用戶執行沒有問題,但是當使用Crontab定時調度時則會出現報錯: GSS initiate faild 解決方案:

原创 linux中shell變量$#,$@,$0,$1,$2的含義解釋(最全版本)

linux中shell變量$#,$@,$0,$1,$2的含義解釋: 變量說明:  $$  Shell本身的PID(ProcessID)  $!  Shell最後運行的後臺Process的PID  $?  最後運行的命令的結束代碼(返回值)

原创 使用Akka實現一個簡易版的spark通信框架

需求實現邏輯 啓動master和worker 在worker端對應的preStart方法中拿到master的引用對象,通過這個master引用向master發送註冊信息,註冊信息包含workerId, workCores, workMem

原创 Apache Sqoop安裝與使用

一、Apache Sqoop 1.sqoop介紹 Apache Sqoop是在Hadoop生態體系和RDBMS體系之間傳送數據的一種工具。來自於Apache軟件基金會提供。 Sqoop工作機制是將導入或導出命令翻譯成mapredu