原创 Spark之Stage的生成及任務的執行

每一個Spark應用都會創建一個sparksession,用來跟Spark集羣交互,如果提交任務的模式爲cluster模式,則Driver進程會被隨機在某個worker結點上啓動,然後真正執行用戶提供的入口類,或是使用Spark內

原创 spark-submit命令行提交Spark任務流程解讀

spark-submit方式提交應用 啓動腳本文件 # 命令行提交Spark應用樣例: #./bin/spark-submit \ # --class com.imooc.spark.Test.TestOfSparkContex

原创 Spark之SparkEnv實例的構建

SparkEnv SparkEnv會在Driver和Executor角色創建時,創建該類的一個實例,爲當前結點的正常工作提供必要的功能,例如管理交互數據在本地的緩存、shuffle文件、跟蹤Map任務的輸出等。它實例化了Spark

原创 Spark集羣創建之核心角色的創建過程

基本概念 這裏所說的核心角色,是指如Master、Worker、Client等,這類在各自的進程中需要初始化一個新的RpcEnv環境的角色,他們同時負擔了同進程內其它RpcEndpoint與遠程端點的RPC消息交互。所有這些核心角

原创 堆排序算法之前K個最大/最小值

堆排序算法: 需要根據輸入的元素,構建一個大根/小根堆,即完全二叉樹(不存在沒有左孩子或右孩子的非葉子結點,以數組保存所有結點爲例,父子結點的關係爲:left_child_idx = 2 * parent_idx + 1, rig

原创 輕量、高可用的任務調度系統實之揹包問題

緒言 最近爲了能夠在機器學習平臺支持公司內的各類應用任務,如Spark類,Python類,R類等的程序,共享一套集羣資源,並最大化資源利用率,一個輕量、高可用的任務調度系統必不可少,因此本人基於Netty/Raft協議,實現了一個

原创 整數四則運算溢出及溢出後的轉換

無符號數溢出 加法運算 對於無符號的短整型(unsigned short int),假設其爲1個字節,其取值範圍爲0 ~ 255(即0 ~ 2^8 - 1),當兩個無符號數相加溢出時,捨棄高位保留低位。 如a=255=(111

原创 GoogleCloud Spark Operator Chart(未完待續)

Spark Operator Chart GoogleCloud Spark Operator,基於Spark官方Kubernetes資源管理器的實現,實現了通過K8S接口提交Spark應用的功能。 下面列出了一些官方Operat

原创 VIP Load Balance via iptables on Linux

這裏所謂的VIP load balance via iptables,是指在CentOS 7系統上,基於iptables規則,利用VNI(Virtual Network Interface)創建的VIP(Virtual IP),實現網絡流

原创 TPC-H測試數據表生成,以及在Impala中的使用

一、下載TPCH生成工具 官方網址:http://www.tpc.org/tpc_documents_current_versions/current_specifications.asp 本文中安裝的是: TPC-H 2.17.1

原创 Parquet數據存儲格式

Parquet是面向分析型業務的列式存儲格式,由Twitter和Cloudera合作開發,2015年5月從Apache的孵化器裏畢業成爲Apache頂級項目,最新的版本是1.8.0。 列式存儲 列式存儲和行式存儲相比有哪些優勢呢?

原创 CentOS 6.x安裝多GCC版本,cmake的安裝與使用

操作系統:CentOS release 6.5 (Final) 當前gcc版本:build=x86_64-redhat-linux                           Thread model: posix       

原创 使用GIT期間遇到的問題(持續更新)

QUESTION 1:    fatal: unable to access 'https://github.com/cloudera/Impala.git/': Failed to connect to github.com port

原创 wxWidgets中OpenGL渲染環境的配置,主要解決不能顯示物體陰影問題

在使用wxWidgets圖形庫之前,一直在使用GLUT庫來爲OpenGL程序提供圖形界面,但其畢竟只能算是一箇中間過渡,想要有更完整的圖形的庫,那麼選擇之一便是wxWidgets庫。 目前本人所使用的wxWidgets版本號是"wxWid