機器學習研究及最新進展

今天把一些有關機器學習的小點梳理了一下,目錄如下:
機器學習的學習方式
機器學習面臨的挑戰
機器學習最新發展
(還在整理會議論文中……後續補充)
轉載處:(1)http://blog.jobbole.com/77620/
(2)譚營教授 《機器學習研究及最新進展》

一 機器學習的學習方式
根據數據類型的不同,對一個問題的建模有不同的方式。在機器學習領域,可以根據輸入數據的格式選擇最合適的算法來獲得最好的結果。
1 監督學習
在監督式學習下,輸入數據被稱爲“訓練數據”,每組訓練數據有一個明確的標識或結果,在建立預測模型的時候,監督式學習建立一個學習過程,將預測結果與“訓練數據”的實際結果進行比較,不斷的調整預測模型,直到模型的預測結果達到一個預期的準確率。監督學習常見的應用場景有分類問題和迴歸問題。常見的算法由邏輯迴歸、SVM。
2 無監督學習
在非監督式學習中,數據沒有被標示,學習模型是爲了推斷出數據的一些內在結構。常見的應用場景包括關聯規則的學習以及聚類等。常見算法包括Apriori算法以及k-Means算法。
3 半監督學習
在此學習方式下,輸入數據部分被標識,部分沒有被標識,這種學習模型可以用來進行預測,但是模型首先需要學習數據的內在結構以便合理的組織數據來進行預測。應用場景包括分類和迴歸,算法包括一些對常用監督式學習算法的延伸,這些算法首先試圖對未標識數據進行建模,在此基礎上再對標識的數據進行預測。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(Laplacian SVM.)等。
4 強化學習
在這種學習模式下,輸入數據作爲對模型的反饋,不像監督模型那樣,輸入數據僅僅是作爲一個檢查模型對錯的方式,在強化學習下,輸入數據直接反饋到模型,模型必須對此立刻做出調整。常見的應用場景包括動態系統以及機器人控制等。
5 集成學習
集成學習用一些相對較弱的學習模型獨立地就同樣的樣本進行訓練,然後把結果整合起來進行整體預測。集成算法的主要難點在於究竟集成哪些獨立的較弱的學習模型以及如何把學習結果整合起來。這是一類非常強大的算法,同時也非常流行。常見的算法包括:Boosting, Bootstrapped Aggregation(Bagging), AdaBoost,堆疊泛化(Stacked Generalization, Blending),梯度推進機(Gradient Boosting Machine, GBM),隨機森林(Random Forest)。

二 機器學習面臨的挑戰
1 不平衡數據問題
例子:以癌症診斷爲例,健康人樣本遠遠多於病人樣本。
如何處理數據的不平衡性:
(1) Quora上關於分類是非均衡訓練集問題的討論
https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set

(2) [文章]《Dealing with Unbalanced Classes ,Svm, Random Forests And Decision Trees In Python》

2 代價敏感問題
例子:
(1) 以癌症診斷爲例,將病人誤診爲健康人的代價與將健康人誤診爲病人的代價是不同的
(2) 以信用卡盜用檢測爲例,將盜用誤認爲正常使用的代價與將正常使用誤認爲盜用的代價是不同的

3 可理解性問題
例子:
(1) 以乳腺癌診斷爲例,需要向病人解釋“爲什麼做出這樣的診斷”;
(2) 以信用卡盜用檢測爲例,需要向安保部門解釋“爲什麼這是正在被盜用的卡”

三 機器學習的最新進展
1 算法驅動(建模與數據分析)
(1) 海量非線性數據
(2) 算法的泛化能力考慮
(3) 學習結果數據的解釋
(4) 代價加權的處理方法
(5) 不同數據類型的學習方法
2 應用驅動
自然語言分析、網絡與電信數據分析、圖像數據分析、金融與經濟數據分析、零售業
數據分析、情報分析。
流形機器學習
半監督機器學習
多實例機器學習
Ranking機器學習
數據流機器學習
圖模型機器學習

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章