機器學習脈絡總結

原創

大漠孤舟

2020-02-20 19:04

一、機器學習定義：

現實世界中，有很多事物過程，未知很多，變數無窮，沒辦法用一套確切標準的規則來描述（如：手寫輸入、自動駕駛、千億文本分類）。那麼也就無法直接將過程邏輯規則翻譯爲代碼邏輯，拋給計算機爲人代勞。

因此，人只能將人的經驗知識、思維方法，翻譯成一段程序，讓計算機來執行、實踐，爲人效勞。

經驗知識、思維方法，可精確標準的描述嗎？

也不能，正式由於這種不可精確標準描述性，所以，才需要在計算機的執行反饋與人的指導修正之間不斷的迭代，優化。

迭代優化什麼時候是個頭呢？

指導這段程序的執行結果達到人們可接受的一個範圍尺度，越靠近那個理想值越好，此之所謂模型收斂！

讓計算機去學習：在人工經驗的指導作用下，使其行爲慢慢改變！

（自己的理解，不對請指正。）

二、機器學習相關概念收集：

1、過程概念：

特徵項選擇：

依據數據項，標誌數據項

數據集選擇：

訓練集&測試集

原型選擇：

線性迴歸、Logistic迴歸、樸素貝葉斯、SVM...

訓練：

優化（訓練）：梯度下降、拉格朗日條件極值、凸優化...

收斂（最優估計函數值H以大概率收斂於最優值，生成模型）：最小訓練誤差、最小均方差、最大似然率...

評測：

預測&分類：

2、方法分類：

有監督學習：有明確正確的結果

迴歸型：連續型輸出

分類型：離散型

無監督學習：

聚類

增強學習：

三、機器學習方法總結

有監督類型：

1、分類：

決策樹（信息增益）

分類迴歸樹（Gini指數、X^2統計量、剪枝）

樸素貝葉斯（非參數估計、貝葉斯估計）

線性判別分析（Fishre判別，特徵向量求解）

K最近鄰（相似度度量、歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關係數）

支持向量機——二值分類（二次規劃、Lagrange乘數法、對偶問題、最優化、序列最小化、核技巧）

邏輯迴歸——二值分類（參數估計<極大似然估計>、S型函數）

徑向基函數網絡（非參數估計、正則化理論、S型函數）

對偶傳播網絡（無導師的競爭學習、有導師的Widrow-Hoff學習）

學習向量量化網絡（一個輸出層細胞跟幾個競爭層細胞相連）

誤差反向傳播網絡（S型函數、梯度下降法）

單層感知器（只具有線性可分的能力）

雙隱藏層感知器（足以解決任何複雜的分類問題）

2、迴歸分析：

線性迴歸（參數估計、最小二乘法、一般用於預測）

邏輯迴歸（參數估計<極大似然估計>、S型函數）

無監督類型：

3、聚類：

KMeans（質心）

CHAMELONE（圖劃分、相對互連度，相對緊密度）

BIRCH（B樹、CF三元組）

DBScan（核心點、密度可達）

EM算法——高斯混合模型（參數估計<極大似然估計>）

譜聚類（圖劃分、奇異值求解、全局收斂）

自組織映射網絡（無導師的競爭學習）

4、降維：

主成分分析（協方差矩陣、奇異值分解）

其他：

5、關聯規則挖掘：

FP-Tree（頻繁1項集、FP-Tree、條件模式基、後綴模式）

6、推薦：

協同過濾（稀疏向量的相似度度量）

參考文獻：

http://blog.csdn.net/chl033/article/details/5452060

http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.html

大漠孤舟

發佈了38 篇原創文章 · 獲贊 1 · 訪問量 7萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習脈絡總結

學習時間的安排

java的環境變量設置

--讀後筆記

excel使用

ORM框架

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結