機器學習脈絡總結

一、機器學習定義:
     現實世界中,有很多事物過程,未知很多,變數無窮,沒辦法用一套確切標準的規則來描述(如:手寫輸入、自動駕駛、千億文本分類)。那麼也就無法直接將過程邏輯規則翻譯爲代碼邏輯,拋給計算機爲人代勞。
     因此,人只能將人的經驗知識、思維方法,翻譯成一段程序,讓計算機來執行、實踐,爲人效勞。
     經驗知識、思維方法,可精確標準的描述嗎?
     也不能,正式由於這種不可精確標準描述性,所以,才需要在計算機的執行反饋 與 人的指導修正 之間不斷的迭代,優化。
     迭代優化什麼時候是個頭呢?
     指導這段程序的執行結果達到人們可接受的一個範圍尺度,越靠近那個理想值越好,此之所謂模型收斂!

     讓計算機去學習:在人工經驗的指導作用下,使其行爲慢慢改變!
     (自己的理解,不對請指正。)

二、機器學習相關概念收集:
     1、過程概念:
          特徵項選擇:
                    依據數據項,標誌數據項
          數據集選擇:
                    訓練集&測試集
          原型選擇:
                    線性迴歸、Logistic迴歸、樸素貝葉斯、SVM...
          訓練:
                    優化(訓練):梯度下降、拉格朗日條件極值、凸優化...
                    收斂(最優估計函數值H以大概率收斂於最優值,生成模型):最小訓練誤差、最小均方差、最大似然率...
          評測:
          預測&分類:

     2、方法分類:
          有監督學習:有明確正確的結果
                    迴歸型:連續型輸出
                    分類型:離散型
          無監督學習:
                    聚類
          增強學習:

三、機器學習方法總結
有監督類型:
     1、分類:
          決策樹(信息增益)
          分類迴歸樹(Gini指數、X^2統計量、剪枝)
          樸素貝葉斯(非參數估計、貝葉斯估計)
          線性判別分析(Fishre判別,特徵向量求解)
          K最近鄰(相似度度量、歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關係數)
          支持向量機——二值分類(二次規劃、Lagrange乘數法、對偶問題、最優化、序列最小化、核技巧)
          邏輯迴歸——二值分類(參數估計<極大似然估計>、S型函數)
          徑向基函數網絡(非參數估計、正則化理論、S型函數)
          對偶傳播網絡(無導師的競爭學習、有導師的Widrow-Hoff學習)
          學習向量量化網絡(一個輸出層細胞跟幾個競爭層細胞相連)
          誤差反向傳播網絡(S型函數、梯度下降法)
          單層感知器(只具有線性可分的能力)
          雙隱藏層感知器(足以解決任何複雜的分類問題)

     2、迴歸分析:
          線性迴歸(參數估計、最小二乘法、一般用於預測)
          邏輯迴歸(參數估計<極大似然估計>、S型函數)

無監督類型:
     3、聚類:
          KMeans(質心)
          CHAMELONE(圖劃分、相對互連度,相對緊密度)
          BIRCH(B樹、CF三元組)
          DBScan(核心點、密度可達)
          EM算法——高斯混合模型(參數估計<極大似然估計>)
          譜聚類(圖劃分、奇異值求解、全局收斂)
          自組織映射網絡(無導師的競爭學習)
     
     4、降維:
          主成分分析(協方差矩陣、奇異值分解)

其他:
     5、關聯規則挖掘:
          FP-Tree(頻繁1項集、FP-Tree、條件模式基、後綴模式)



     6、推薦:
          協同過濾(稀疏向量的相似度度量)

參考文獻:

發佈了38 篇原創文章 · 獲贊 1 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章