spark-28.spark機器學習_1_引言

1.機器學習定義

機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。
通過算法使計算機能夠模擬人類的判別能力。

2.機器學習能幹啥?

模式識別、計算機視覺、數據挖掘、統計學習、語音識別、自然語言處理。
傳統學習:有監督、無監督學習,包括:迴歸、推薦、聚類、分類、挖掘。
人工智能:深度學習、強化學習、遷移學習,包括:神經網絡、卷積神經網絡、AlphaGo。

3.機器學習怎麼用?

輸入數據-》數據預處理-》特徵工程-》機器學習模型訓練-》模型評估-》進行學習或完成離線/在線服務。

4.損失函數

通過模型預測的預測值與真實值之差產生的函數。

5.查全率(召回率)、查準率(正確率)

例子:某池塘有1400條鯉魚,300只蝦,300只鱉。現在以捕鯉魚爲目的。撒一大網,逮着了700條鯉魚,200只蝦,100只鱉。那麼,這些指標分別如下:
查全率=700/1400=50%
查準率=700/(700+200+100)=70%

6.評估參數

MSE:Mean Squared Error

均方誤差是指參數估計值與參數真實值只差平方的期望值。MSE可以評價數據的變化程度,MSE的值越小,說明預測模型描述實驗數據具有更好的精確度。
在這裏插入圖片描述

RMSE

均方根誤差:均方根誤差是均方誤差的算術平方根。
在這裏插入圖片描述

MAE:Mean Absolute Error

平均絕對誤差:平均絕對誤差是絕對誤差的平均值,平均絕對誤差能更好地反映預測值誤差的實際情況。
在這裏插入圖片描述
其中f_i表示預測值,y_i表示真實值。

SD:standard Deviation

標準差:標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。
在這裏插入圖片描述
其中u表示平均值(u=1/N(x_1+⋯+x_N))

7.Spark MLib

分類、聚類、關聯規則、矩陣、向量、優化算法、迴歸、推薦、決策樹等等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章