模型 | 要學習的概率分佈或函數(假設空間) |
策略 | 學習準則或者如何選擇模型 |
算法 | 如何通過輸入計算得到輸出 |
深度學習 | 多層神經網絡 | 深度模型 |
一系列學習方法 | 一種模型 | 一系列模型 |
爲了讓層數較多的多層神經網絡可以訓練,能夠work而演化出來的一系列的新方法 | 就是很多層的神經網絡 | CNN(1993) DBN(2006) DBM |
迴歸 | one | all |
線性 | 最優化誤差函數(最小二乘法<極大似然估計>) | 優點:簡單,容易理解 缺點:對非線性擬合不好 |
局部加權迴歸 | 對數據賦權值、斤大遠小類似局部迴歸、然後組合? | 優點:可以學習高維度的數據 缺點:暫時不知 賦權值:高斯核(正太分佈、近大原小) |
樹迴歸 | 分類後迴歸 | 優點:可以處理高維數據,切分後迴歸即可 缺點:結果不易理解抽象化 |
邏輯 | 邏輯函數映射到(0,1),分類 |
聚類(Partition-based methods) | one | all |
K-Means(補分類過程) | 按N個最近的數據中的多數分 | 1.懶惰學習算法 2.一股腦塞進內存,計算出最"近"的N個點,然後將均值輸出。 |
Knearl-K-Means | 將不規則數據投射到更高層空間 | 1.在必要的時候,用核方法投射高更高維度,進行劃分。結果再投射回二維。 |
其它,基於圈圈大小,圈圈內樣本數量劃分的。 |
分類模型 | one | all |
決策樹 | 定義:以最純淨的方式進行二分類迭代,形成一棵2叉樹。 應用場景:理解數據的構成/結構,實際的分類使用一般會使用集成的方法。 | 缺點: 1.容易過擬合,如果停止條件是每個葉子節點只有一種分類,算法就會盡量使得葉子結點完美純淨。 1.5.於是降低分類停止條件,設置閾值(分類條件和分類的相關程度(葉子結點純淨度)、葉子結點樹木)。 2.還是容易過擬合。(噪音數據過多,無法準確分割;缺少代表性數據,無法分割出該類;多重比較,量大了選出來的優秀可能只是隨機優秀。) 3.於是迭代裁剪葉子節點,進行交叉驗證,以最優(泛化能力最好)樹爲最終模型。(可能需要進行蠻多次裁剪:如果每處葉子節點都只留一個代表性節點) 優點: 0.非參數學習:不必考慮是否線性可分、有離羣點等 1.可讀性比較好,具備良好的可描述性。 2.效率高,一次構建,反覆使用??(哪個模型不是的呢),計算次數最多爲樹的深度。 常用算法:ID3和 C4.5(用信息增益比確定分類特徵) |
隨機森林 | 綜合多棵決策樹的分類效果,防止過擬合 應用場景:流失客戶類別預測、風險評估 | 解決的問題:決策樹的過擬合和噪聲數據問題 解決方案:兩個隨機:隨機樣本、隨機特徵。 更多優點:
缺點:有過擬合風險(降低樹的深度、裁剪葉節點、降低子樹隨機選取特徵和樣本量) 關鍵在於:最小葉結點書目、最大子樹樹木、每課子樹的數據數量、特徵數量等的調整。(玄學範疇) |
SVM | 定義:從幾何的角度劃分數據,特點是考慮到了潛在的數據,使得潛在數據都能很比較好地進行劃分。(具有魯棒性) 應用場景:都可以試試?,數據量不大的分類問題 | 本質:基於概率?? 優點:不易過擬合,適合小樣本。(一天以內可以訓練出來模型的量) 缺點:內存密集型,涉及到對樣本的隨機訪問。核函數選擇是關鍵,但是這是屬於玄學。 核函數選擇:樣本量大時,可想辦法增加特徵,用線性核(統一映射和不映射的情況,不區分)的SVM或者是線性迴歸。如果樣本量不大,可採用高斯核的SVM(映射到無窮維度)。 優點:具有魯棒性、有考慮到潛在的數據 |
多層神經網絡 | 多種刺激,多次處理,不同權重,模擬人腦神經處理。 應用場景: | 缺點:
優點:
|
深度學習模型 | 應用場景:圖像識別、文本識別、遊戲操作學習 | 缺點:
優點:
|
樸素貝葉斯 | 貝葉斯公式: P(Y|X)=P(X|Y)P(Y)P(X):P(Y|X)=P(X|Y)P(Y)P(X) / P(X) 條件獨立假設:事件X、Y互相獨立 樸素貝葉斯:拆Y P(X|Y1)P(X|Y2)...P(Y1Y2)/P(X) (要求事件Y在X發生的條件下發生的概率,即X、Y的概率爲先驗概率,通過易獲取的X在Y發生的情況下發生的概率求解。 其中,XY相互獨立,XY可拆解,此處拆解Y,可分解出多個貝葉斯公式,分別求解) 應用場景:文本分類(垃圾郵件識別、情感分析) | 缺點:
優點:
一些技巧:
|
邏輯迴歸 | 定義:通過最邏輯迴歸函數:正則化投射到特定值域。 應用場景:數據類別間大致是線性可分的分類問題 | 缺點:
優點:
|
LDA線性判別分析 | 降維/分類 應用場景: | 缺點:
優點:
|
- 分類學習算法——一個統一的視角
- 決策書的結點裁剪
- 特徵工程——特徵離散化,特徵交叉
- 迴歸樹和分類樹
- 多層神經網絡
- 梯度表達式和sigmod函數的關係
- 感知器爲什麼是支持向量機的基礎?
- 鏈式法則是什麼?
- 局部加權迴歸是如何處理的