原创 (七)Spark源碼理解之TaskScheduler----part6

恩。。。。由於最近這段時間都在實習以及找工作,因此就將博客給落下了,現在繼續將spark的部分"搬上"。。PS:雖然我自己也忘得差不多了。。 4.Executor Executor類完成任務的裝載,任務的運行等功能,它有個變量爲Exec

原创 實習整理(三)

未完待續。。。ps:真心對csdn的編輯器無語了,只能用圖片的形式發表內容了,格式什麼的對於具有強迫症的人來說真是糟糕的不能再糟糕了,希望csdn能對這個問題引起重視,並且加以改進和完善

原创 實習整理(二)

先寫下自己在準備過程中所整理的資料,當然,這些資料不一定對於每個人都有用,只是自己碰到了而已,寫得有問題的請隨時提出,以便改正。。。1.C++中求字符串長度的函數爲:            string s;            s.l

原创 (七)Spark源碼理解之TaskScheduler----part4

resourceOffers():該方法是TaskSchedulerImpl的核心所在,實現將任務指定給對應的從節點中的executor,其主要思路可以概述爲: 首先將獲取的每個executor的資源,組成組成WorkerOffer序列,

原创 機器學習理解(四)

5.KNN分類---有監督學習KNN即K近鄰分類,它的基本思想就是找到與待分類樣本最近的K個樣本,在這K個樣本中,哪個類別所包含的樣本數最多,則待分類樣本就屬於哪一類基本步驟:1.分別求得待分類樣本與訓練樣本的距離;距離的求法有歐式距離,

原创 機器學習理解(五)

7.Apriori算法---無監督學習Apriori算法是關聯規則挖掘算法中用的比較早的算法,事物和事物之間通常存在一定的聯繫,關聯規則挖掘的目的就在於從在大量的數據項中發現隱藏着的聯繫或者相關性,揭示數據項間的依賴關係,如用戶去超市購買

原创 機器學習理解(六)

9.AdaBoost分類器----有監督學習AdaBoost也是一種分類算法,它是一種迭代算法,通過訓練多個弱分類器,來得到強分類器,利用最終的強分類器來對數據進行分類,它的基本步驟爲:1.賦予每個訓練樣本相同的權重,訓練第一個弱分類器,

原创 機器學習理解(二)

3.神經網絡分類器----有監督學習神經網絡就是模仿人類大腦神經元工作方式的一種機器學習方法,同時它也是深度學習中的一個比較熱門的知識點神經網絡總共分爲三層:輸入層,隱藏層,輸出層,每一層都是由若干個神經單元組成的輸入層:事件有幾個屬性,

原创 機器學習理解(三)

今天插播下邏輯線性迴歸的一些知識,其實之前對這部分的內容還未太在意,後來實習以及找工作的過程中都碰到這個問題,就寫下吧。。在這之前先扯點其他的。。當正負樣本不均衡時,可以採取樣本重構的方法,如重採樣,在正樣本及其K鄰近範圍之內的樣本之間線

原创 實習整理(四)

10.Linux中最常用的命令 http://www.codeceo.com/article/10-linux-command-every-programmer-must-know.html 11.線性表採用數組存儲----順序表,採

原创 (八)Spark源碼理解之DAGScheduler---part1

DAGScheduler是Spark中另一比較重要的部分,它屬於高級調度,主要實現stage的劃分,接着生成整個DAG圖,以及如何爲每個stage生成任務集,並且將任務集提交給TaskScheduler,基於這兩點我將對DAGSchedu

原创 機器學習理解(一)

Spark這部分寫完了,忽然發現自己沒什麼可寫的了。。。還是把機器學習這部分寫下,雖然有關機器學習的博客有很多,而且有的博客寫的真的很好,但還是想將自己在學習機器學習時的一個理解記錄下來,可能存在許多不足,因此如果有了新的理解,我會進行更

原创 (七)Spark源碼理解之TaskScheduler----part3

3.TaskSchedulerImpl 具體實現TaskScheduler,是TaskScheduler的子類,也是整個任務實現過程的核心,在對這部分講述之前介紹幾個比較重要的變量: taskIdToTaskSetId:HashMap容器

原创 (八)Spark源碼理解之DAGScheduler---part2

承接上篇博文所述,接下來我對getShuffleMapStage以及newStage這兩個方法的代碼進行主要的介紹 getShuffleMapStage:該方法主要是通過調用newOrUsedStage生成stage private d

原创 (八)Spark源碼理解之DAGScheduler---part3

講講自己對於ShuffleMapTask和ResultTask的區別    簡單來說兩者都是Task類的子類,不同的是操作類型,前者的操作類型是MapStaus類,是在shuffle map stage生成的,後者的操作類型是數據,是在f