原创 SVM參數理解和分類實踐

sklearn中svm.SVC()有比較重要的參數C和gamma,默認使用徑向基核(kernel=‘rbf’)。 RBF的核函數:K(x,z)=exp(−γ∥x−z∥2), γ>0K(x,z)=exp(-\gamma\|x-z\|

原创 用spark窗口函數進行session劃分

問題1: 數據有car_id,city,up_time三列,百G左右。目標是統計car每次經過一個city的時間段; 類似於網頁中的session,不是經過每個city的總時間。每個時間段以當地的up_time爲準。 比如:

原创 spark SQL(12)show函數的執行流程

DataSet中的show()調用select()執行,並打印結果。 def show(truncate: Boolean): Unit = show(20, truncate) // def show(numRows

原创 樸素貝葉斯進行垃圾郵件分類原理

條件概率公式: P(A∣S)=∣A∩S∣∣S∣=P(A∩S)P(S)P(A|S)=\dfrac{|A\cap S|}{|S|}=\dfrac{P(A \cap S)}{P(S)}P(A∣S)=∣S∣∣A∩S∣​=P(S)P(A∩S

原创 樸素貝葉斯法的參數估計理論

貝葉斯的參數估計 樸素貝葉斯方法需要知道先驗概率,此時 P(Yi)P(Y_i)P(Yi​)是先驗概率,P(X∣Yi)P(X|Y_i)P(X∣Yi​)是類的條件概率密度。 P(Yi)P(Y_i)P(Yi​)容易得到,對類的條件密度的

原创 循環神經網絡簡介

循環神經網絡(recurrent neural network)源自於1982年由Saratha Sathasivam 提出的霍普菲爾德網絡。 RNN用於解決訓練樣本輸入是連續的序列,且序列的長短不一的問題,比如基於時間序列的問題

原创 隨機森林算法簡介

隨機森林(Random Forest) 實際上是一種改進的bagging方法,它將CART樹用作bagging中的模型。 普通決策樹在節點上所有的樣本特徵中選擇一個最優的特徵來作爲左右子樹的劃分, 隨機森林(RF)通過隨機選擇節點

原创 spark(九)-checkpoint的讀寫流程

RDD.checkpoint spark計算中,當 計算流程DAG特別長,服務器需要將整個DAG計算完成得出結果,但是如果在這很長的計算流程中突然中間算出的數據丟失了,spark又會根據RDD的依賴關係從頭到尾計算一遍,浪費計算資

原创 spark(八)-Executor運行一個task

Executor launchTask() def launchTask(context: ExecutorBackend, taskDescription: TaskDescription): Unit = { val tr

原创 Spark(六)-Stage劃分算法

DAGScheduler提交job時,主要執行了: val func2 = func.asInstanceOf[(TaskContext, Iterator[_]) => _] val waiter = new JobWaite

原创 spark(二)-Master的資源調度

Master在收到RegisterWorker/RegisterApplication/ExecutorStateChanged/RequestSubmitDriver消息時, 或者完成主備切換後,都要執行schedule(),來

原创 spark(三)-Worker啓動Driver和Executor

master在schedule()時會先啓動註冊過來的waitingDrivers,然後啓動Worker上的所有Executors。 在standalone模式下。 Worker啓動Driver master向worker發送La

原创 spark(七)-創建和啓動TaskSet簡析

submitMissingTasks() stage劃分好以後,找到了祖先parent,就可以執行從頭一個stage開始的所有task了。 RDD Action 觸發sc.runJob -> DAGScheduler事件循環 ->

原创 spark(五)-wordcount執行過程

有了文件讀寫過程,就可以讀取一個文件執行簡單的hello spark程序了。 wordcount執行過程 val lines = sc.textFile(“D:/resources/README.md”) val words =

原创 spark文件讀寫流程分析

1,spark讀文件流程 從本地讀取txt文件: // path最後可以是文件或文件夾,還可以用通配符 val path = “file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/l