原创 spark編譯和生成部署包
有時候下載的spark不支持一些應用需要添加一些依賴,需要對spark進行編譯。 比如我安裝了ganglia集羣,但是spark不支持要編譯。 前提安裝好MAVEN JAVA,我的系統是ubuntu step1:官網或者GitHub上下載
原创 關於Ubuntu中Could not get lock /var/lib/dpkg/lock解決方案
1、在ubuntu系統中使用命令sudo apt-get install 命令時出現錯誤,Could not get lock /var/lib/dpkg/lock 2、原因:主要是因爲apt還在運行。 3、方法:刪除鎖定文件 鎖定的文
原创 帶你看懂Spark2.x源碼之Task分配算法
https://blog.csdn.net/qq_41571900/article/details/84503945
原创 Spark2.x源碼之stage劃分
https://blog.csdn.net/qq_41571900/article/details/84452430
原创 遺傳算法、粒子羣算法學習
這篇博文算是給自己學習的一個目錄。 1、遺傳算法 網上遺傳算法的解釋蠻多的,但是例子有點少,綜合以下兩篇博文。 https://blog.csdn.net/u010425776/article/details/79155480 https
原创 輸入pyspark '""C:\Program' 不是內部或外部命令,
是因爲Jdk設置環境變量的時候JAVA_HOME的路徑有空格,用雙引號把有空格的路徑括起來 就行了 這樣寫: C:\"Program Files" 或 progra~1
原创 spark+pycharm+python(主要介紹pycharm的設置)
因爲本人比較熟悉Python,所以沒有用scala 而且在windows下操作比較坑 後期不能基於yarn(因爲windows 安裝hadoop比較麻煩),故在ubuntu下運行了 1,安裝spark 2,安裝hadoop 3,安裝pyc
原创 Ubuntu提示存儲空間不夠
http://blog.csdn.net/mandagod/article/details/47146089 這個方法釋放了大概1G的硬盤容量 http://os.51cto.com/art/201511/498283.htm 這個方法好
原创 pip easy_install 安裝python第三方庫 超時報錯
最近不管用python的pip 還是easy_install安裝第三方庫 都超時報錯 百度了相關資料 1.設置超時時間 如添加timeout=100 2.手動設置第三方源 個人覺得第二種解決方法更好 eg:pip install pac
原创 Spark2.3源碼分析 目錄
分析Spark源碼第一步——搭建源碼閱讀環境 分析Spark源碼第二步——內核架構分析 持續更新中。。。 因爲圖片都是自己手繪的,太醜了,然後就找了網上的圖片。。
原创 分析Spark源碼第二步——內核架構分析
這章是具體流程使用standalone提交模式,將我們編寫好的Application打成jar包上傳到某Spark節點上,通過spark-submit提交Application,該命令運行後在該節點會通過反射的方式,創建和構造一個Driv
原创 分析Spark源碼第一步——搭建源碼閱讀環境
爲了深入理解spark,想了解一下源碼,故搭建了一下源碼閱讀環境。我是在windows環境下進行的。step1:工具的獲取我安裝的軟件及版本如下,搭建之前請安裝好這些:(1)java1.8(2)scala 安裝可參考http://ww
原创 SCI/SCIE/SSCI的查詢驗證鏈接
SCI/SCIE/SSCI的查詢驗證鏈接如下(能搜到結果證明屬於該索引期刊,意見通過ISSN號碼查詢):SCI查詢:http://mjl.clarivate.com/cgi-bin/jrnlst/jlsearch.cgi?PC=KSCIE
原创 hadoop集羣搭建datanode,nodemanager啓動不了
我也是悲催啊 這麼多問題 我的處理方法是:每個Slave下面,找到.../usr/hadoop/tmp/dfs/ -ls 會顯示有: data 這裏需要把data文件夾刪掉,啓動hadoop start-all.sh 接着查看jps
原创 從本地傳入數據到MySQL數據庫
個人覺得比較簡單的方法如下: 假如要傳入數據庫的名字爲:a sql文件名爲:b 進入本地sql數據存放的目錄下 在終端輸入 mysql -u 用戶名 -p 密碼 a < b.sql