原创 spark編譯和生成部署包

有時候下載的spark不支持一些應用需要添加一些依賴,需要對spark進行編譯。 比如我安裝了ganglia集羣,但是spark不支持要編譯。 前提安裝好MAVEN JAVA,我的系統是ubuntu step1:官網或者GitHub上下載

原创 關於Ubuntu中Could not get lock /var/lib/dpkg/lock解決方案

1、在ubuntu系統中使用命令sudo apt-get install 命令時出現錯誤,Could not get lock /var/lib/dpkg/lock 2、原因:主要是因爲apt還在運行。 3、方法:刪除鎖定文件  鎖定的文

原创 帶你看懂Spark2.x源碼之Task分配算法

https://blog.csdn.net/qq_41571900/article/details/84503945

原创 Spark2.x源碼之stage劃分

https://blog.csdn.net/qq_41571900/article/details/84452430

原创 遺傳算法、粒子羣算法學習

這篇博文算是給自己學習的一個目錄。 1、遺傳算法 網上遺傳算法的解釋蠻多的,但是例子有點少,綜合以下兩篇博文。 https://blog.csdn.net/u010425776/article/details/79155480 https

原创 輸入pyspark '""C:\Program' 不是內部或外部命令,

是因爲Jdk設置環境變量的時候JAVA_HOME的路徑有空格,用雙引號把有空格的路徑括起來 就行了 這樣寫: C:\"Program Files" 或 progra~1

原创 spark+pycharm+python(主要介紹pycharm的設置)

因爲本人比較熟悉Python,所以沒有用scala 而且在windows下操作比較坑 後期不能基於yarn(因爲windows 安裝hadoop比較麻煩),故在ubuntu下運行了 1,安裝spark 2,安裝hadoop 3,安裝pyc

原创 Ubuntu提示存儲空間不夠

http://blog.csdn.net/mandagod/article/details/47146089 這個方法釋放了大概1G的硬盤容量 http://os.51cto.com/art/201511/498283.htm 這個方法好

原创 pip easy_install 安裝python第三方庫 超時報錯

最近不管用python的pip 還是easy_install安裝第三方庫 都超時報錯 百度了相關資料 1.設置超時時間 如添加timeout=100 2.手動設置第三方源 個人覺得第二種解決方法更好 eg:pip install pac

原创 Spark2.3源碼分析 目錄

  分析Spark源碼第一步——搭建源碼閱讀環境 分析Spark源碼第二步——內核架構分析 持續更新中。。。 因爲圖片都是自己手繪的,太醜了,然後就找了網上的圖片。。

原创 分析Spark源碼第二步——內核架構分析

這章是具體流程使用standalone提交模式,將我們編寫好的Application打成jar包上傳到某Spark節點上,通過spark-submit提交Application,該命令運行後在該節點會通過反射的方式,創建和構造一個Driv

原创 分析Spark源碼第一步——搭建源碼閱讀環境

爲了深入理解spark,想了解一下源碼,故搭建了一下源碼閱讀環境。我是在windows環境下進行的。step1:工具的獲取我安裝的軟件及版本如下,搭建之前請安裝好這些:(1)java1.8(2)scala   安裝可參考http://ww

原创 SCI/SCIE/SSCI的查詢驗證鏈接

SCI/SCIE/SSCI的查詢驗證鏈接如下(能搜到結果證明屬於該索引期刊,意見通過ISSN號碼查詢):SCI查詢:http://mjl.clarivate.com/cgi-bin/jrnlst/jlsearch.cgi?PC=KSCIE

原创 hadoop集羣搭建datanode,nodemanager啓動不了

我也是悲催啊 這麼多問題 我的處理方法是:每個Slave下面,找到.../usr/hadoop/tmp/dfs/  -ls 會顯示有: data 這裏需要把data文件夾刪掉,啓動hadoop start-all.sh 接着查看jps

原创 從本地傳入數據到MySQL數據庫

個人覺得比較簡單的方法如下: 假如要傳入數據庫的名字爲:a sql文件名爲:b 進入本地sql數據存放的目錄下 在終端輸入 mysql -u 用戶名 -p 密碼 a < b.sql