台部落Rover Ramble

sklearn中svm.SVC()有比較重要的參數C和gamma，默認使用徑向基核(kernel=‘rbf’)。 RBF的核函數：K(x,z)=exp(−γ∥x−z∥2), γ>0K(x,z)=exp(-\gamma\|x-z\|

2020-05-23 05:05:20

問題1：數據有car_id,city,up_time三列，百G左右。目標是統計car每次經過一個city的時間段；類似於網頁中的session，不是經過每個city的總時間。每個時間段以當地的up_time爲準。比如：

2020-05-23 05:05:20

DataSet中的show()調用select()執行，並打印結果。 def show(truncate: Boolean): Unit = show(20, truncate) // def show(numRows

2020-05-23 05:05:20

條件概率公式： P(A∣S)=∣A∩S∣∣S∣=P(A∩S)P(S)P(A|S)=\dfrac{|A\cap S|}{|S|}=\dfrac{P(A \cap S)}{P(S)}P(A∣S)=∣S∣∣A∩S∣=P(S)P(A∩S

2020-05-20 13:49:13

貝葉斯的參數估計樸素貝葉斯方法需要知道先驗概率，此時 P(Yi)P(Y_i)P(Yi)是先驗概率，P(X∣Yi)P(X|Y_i)P(X∣Yi)是類的條件概率密度。 P(Yi)P(Y_i)P(Yi)容易得到，對類的條件密度的

2020-05-20 13:49:13

循環神經網絡（recurrent neural network）源自於1982年由Saratha Sathasivam 提出的霍普菲爾德網絡。 RNN用於解決訓練樣本輸入是連續的序列,且序列的長短不一的問題，比如基於時間序列的問題

2020-05-20 13:49:13

隨機森林(Random Forest) 實際上是一種改進的bagging方法，它將CART樹用作bagging中的模型。普通決策樹在節點上所有的樣本特徵中選擇一個最優的特徵來作爲左右子樹的劃分，隨機森林(RF)通過隨機選擇節點

2020-05-20 13:49:13

RDD.checkpoint spark計算中，當計算流程DAG特別長,服務器需要將整個DAG計算完成得出結果,但是如果在這很長的計算流程中突然中間算出的數據丟失了,spark又會根據RDD的依賴關係從頭到尾計算一遍，浪費計算資

2020-05-20 13:49:13

Executor launchTask() def launchTask(context: ExecutorBackend, taskDescription: TaskDescription): Unit = { val tr

2020-05-17 13:57:57

DAGScheduler提交job時，主要執行了： val func2 = func.asInstanceOf[(TaskContext, Iterator[_]) => _] val waiter = new JobWaite

2020-05-14 16:27:20

Master在收到RegisterWorker/RegisterApplication/ExecutorStateChanged/RequestSubmitDriver消息時，或者完成主備切換後，都要執行schedule()，來

2020-05-14 16:27:20

master在schedule()時會先啓動註冊過來的waitingDrivers，然後啓動Worker上的所有Executors。在standalone模式下。 Worker啓動Driver master向worker發送La

2020-05-14 16:27:20

submitMissingTasks() stage劃分好以後，找到了祖先parent，就可以執行從頭一個stage開始的所有task了。 RDD Action 觸發sc.runJob -> DAGScheduler事件循環 ->

2020-05-14 16:27:20

有了文件讀寫過程，就可以讀取一個文件執行簡單的hello spark程序了。 wordcount執行過程 val lines = sc.textFile(“D:/resources/README.md”) val words =

2020-05-14 16:27:20

1，spark讀文件流程從本地讀取txt文件： // path最後可以是文件或文件夾，還可以用通配符 val path = “file:///usr/local/spark/spark-1.6.0-bin-hadoop2.6/l

2020-05-12 06:51:37