Task01：機器學習概述

機器學習面試問題：

機器學習：機器學習是什麼，怎麼來的，理論基礎是什麼，爲了解決什麼問題。

機器學習是從已知的數據和答案中尋找出某種規則。區別傳統編程基於規則和數據，得到一個答案。
機器學習以計算機爲工具和平臺，以數據爲研究對象，以學習方法爲中心，是概率論，線性代數，信息論，最優化和計算機科學等多個領域的交叉學科。
應用於自動駕駛，人臉識別，垃圾郵件檢測，信用風險預測，工業製造缺線檢測，商品價格預測，語音識別和智能機器人扥領域

機器學習分類：
- 按學習方式分：有監督、無監督、半監督
1. 有監督：是指基於一組帶有結果標註的樣本訓練模型，然後用該模型對新的未知結果的樣本做出預測。
2. 無監督：訓練樣本的結果信息是沒有被標註的，即訓練集的結果標籤是未知的。
3. 半監督：學習使用大量的未標記數據，以及同時使用標記數據，來進行模式識別工作。
- 按任務類型分：迴歸、分類、聚類、降維生成模型與判別模型
1. 迴歸：利用數理統計中的迴歸分析技術，來確定兩種或兩種以上變化量之間依賴關係。
2. 分類：分類問題是機器學習中最常見的一類任務，比如圖像分類，文本分類等。
3. 聚類：又稱羣分析，目標是將樣本劃分爲緊密關係的子集或簇。
4. 降維：是指採用某種映射方法，將原高維空間的數據點映射到低維空間。
5. 生成模型：基於按學習方法分類中進一步的劃分-生成方法，由數據學習訓練集的聯合概率分佈，然後求出條件概率分佈作爲預測模型，即做成模型再運用這個模型對測試集數據進行預測。之所以被稱爲生成方法，是因爲模型表示了給定輸入X產生輸出Y的生成關係。典型的有樸素貝葉斯模型和隱馬爾科夫模型。
6. 判別模型：基於按學習方法分類中進一步的劃分-判別方法，是由數學直接學習決策函數或條件概率分佈作爲預測模型，即判別模型。判別方法關心的是給定的輸入X,應該預測出什麼樣的輸出Y。典型的判別模型包括K近鄰，感知機，決策樹，logistic迴歸，最大熵模型，支持向量機，提升方法，條件隨即場等。
機器學習方法三要素

機器學習方法都是由模型、策略和算法三要素構成。機器學習方法=模型+策略+算法

模型：

根據實際問題，第一目標建立一個函數或者概率模型，其中包含未知參數，求解未知參數作爲第二目標。然後通過訓練集將其學習出來。

策略

通過訓練集將其學習出來，採用這樣策略：定義一個"損失函數"。
損失函數：描述麼哦一次預測結果與真實結果之間的差異。常用的損失函數有：
1. 0-1損失函數 todo
2. 絕對損失函數 todo
3. 平方損失函數 todo
4. 指數損失函數 todo
5. Hinge損失函數 todo
6. 對數損失函數 todo

算法：梯度下降法、牛頓法、擬牛頓法
算法

算法指的是求解最優化問題的方法，我們一般將其轉化爲無約束優化問題，然後利用梯度下降法和牛頓法進行求解。

梯度下降法:運用迭代法做數值計算（比如求解某個方程組的解）時，只要誤差能夠收斂，計算機進過一定次數的迭代後就可以給出一個跟真實解很接近的結果。進一步考慮：目標函數按照那個方向迭代求解時誤差的收斂速度會最快呢？答案就是沿梯度方向。多元微分學中，梯度就是函數的導數方向。梯度法是求解無約束多元函數極值極值最早的數值方法，很多機器學習的常用算法都是以它作爲算法框架進行改進的。目標函數在某點的梯度是一個由各個分量的偏導數構成的向量。幾何解釋:用一個平面去你和當前的局部曲面。
牛頓法：是求解無約束最優化問題的常用方法，最大的優點是收斂速度快。牛頓法相對於梯度下降法，是用一個二次曲面去擬合你當前所處位置的局部曲面。二次曲面的擬合會比平面更好，鎖以牛頓法選擇的下降魯錦更符合真是的最優下降路徑。
阻尼牛頓法：解決牛頓法的一個風險：即牛頓方向不一定是下降方向，經迭代，目標函數值可能上升。此外，及時目標函數值是下降的，得到的點也不一定是沿牛頓方向最好的點或極小值點。因此人民提出了阻尼牛頓法對牛頓法進行修正。阻尼牛頓法在牛頓法的基礎上增加了動態步長因子，相當於增加了一個沿牛頓方向的一維搜索。
擬牛頓法：優勢是收斂較快，牛頓和阻尼牛頓法的迭代式中，每次都必須計算Hessen矩陣的逆矩陣，當函數中的含有的未知變量個數較多時，這個計算量是比較大的，爲了客服這一缺點，人們提出用一個更簡單的式子去近似擬合式子中的Hessen矩陣，這就有了擬牛頓法。

模型評估指標：R2、RMSE、accuracy、precision、recall、F1、ROC、AUC、Confusion Matrix

R2 todo
RMSE todo
accuracy todo
precision todo
recall todo
F1 todo
ROC todo
AUC todo
Confusion Matrix todo

複雜度度量：偏差與方差、過擬合與欠擬合、結構風險與經驗風險、泛化能力、正則化

偏差與方差 todo
過擬合與欠擬合 todo
結構風險與經驗風險 todo
泛化能力 todo
正則化 todo

模型選擇：正則化、交叉驗證

正則化 todo
交叉驗證 todo

採樣：樣本不均衡

樣本不均衡 todo

特徵處理：歸一化、標準化、離散化、one-hot編碼

歸一化 todo
標準化 todo
離散化 todo
one-hot編碼 todo

模型調優：網格搜索尋優、隨機搜索尋優

網格搜索尋優 todo
隨機搜索尋優 todo

R_TRIG

發佈了33 篇原創文章 · 獲贊 4 · 訪問量 5萬+

私信關注

Task01：機器學習概述

百毒不侵打卡01

Task03：邏輯迴歸

Task06：樸素貝葉斯

Task04：決策樹

Task01：機器學習概述

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結