機器學習（問題集)

什麼是凸集、凸函數、凸學習問題？
凸集：若對集合C中任意兩點u和v，連接他們的線段仍在集合C中，那麼集合C是凸集。
公式表示爲：αu+(1-α)v∈C α∈[0, 1]
凸函數：凸集上的函數是凸函數。凸函數的每一個局部極小值也是全局極小值( f(x) = 0.5x^2 )。
公式表示爲：f(αu + (1-α)v) ≤ αf(u)+ (1-α)f(v)
無監督學習方法有哪些？
強化學習、K-means 聚類、自編碼、受限波爾茲曼機
簡述迴歸，分類，聚類方法的區別和聯繫並分別舉出一個例子，簡要介紹算法思路
迴歸：
對連續隨機變量建模預測的監督學習算法；
經典案例：房價預測；
算法舉例：線性迴歸，建立數據的擬合曲線作爲預測模型(y = wx + b);
分類：
對離散隨機變量建模預測的監督學習算法；
經典案例：垃圾郵件分類；
算法舉例：支持向量機，尋找二類支持向量的最大切分超平面；
聚類：
基於數據的內部規律，尋找其屬於不同族羣的無監督學習算法；
算法舉例：k-means；
邏輯迴歸和SVM的區別和聯繫
1.損失函數不同,LR損失函數是對數損失；SVM損失函數時合頁損失；
2.LR考慮了所有點的損失，但通過非線性操作大大減小離超平面較遠點的權重；SVM僅考慮支持向量的損失
3.LR受類別平衡的影響；SVM則不受類別平衡的影響；
4.LR適合較大數據集；SVM適合較小數據集
從變換矩陣和變換效果等方面闡述相似變換、仿射變換、投影變換的區別。
等距變換：圖像旋轉+平移
相似變換：圖像旋轉+平移+縮放(放大或縮小原圖)
仿射變換：圖像旋轉+平移+縮放+切變(雖改變圖像的形狀，但未改變圖像中的平行線)
投影變換：圖像旋轉+平移+縮放+切變+射影(不僅改變了圖像的形狀，而且改變了圖像中的平行線)
Bagging和Boosting之間的區別？
1.從樣本選擇角度：
Bagging採用隨機有放回的採樣方式(Boostraping);Boosting使用所有樣本，但每個樣本的權重不同；
2.從決策方式角度：
Bagging分類預測採用大多數投票選舉法，迴歸預測採用各基分類器預測結果的平均值；Boosting採用各基分類器在不同權重作用下預測結果的累加和；
3.從方差、偏差角度：
Bagging以減小方差爲目的；Boosting以減少偏差爲目的；模型過擬合，則方差大，Bagging以隨機採樣樣本的方式減少異常樣本的選擇比例，從而可以降低過擬合，隨之也就減小了方差； Boosting的損失函數就是以減少偏差爲目的來訓練下一個基分類器；
4.從權重角度：
Bagging各個樣本的權重相同，各個基分類器權重相同；Boosting各個樣本的權重不同，正確預測的樣本權重減小，錯誤預測的樣本權重增大；各個基分類器的權重不同，預測準確率高的權重大，預測準確率低的權重小；
生成模型和判別模型
生成方法是首先基於數據學習聯合概率分佈P(X,Y),然後獲得條件概率分佈P(Y|X)作爲預測模型。

常用模型：隱馬爾可夫模型(HMM)、樸素貝葉斯
判別方法是直接基於數據學習到決策函數F或條件概率分佈P(Y|X)作爲預測模型。
常用模型：支持向量機、K近鄰算法、決策樹、邏輯迴歸、感知機、最大熵等
交叉熵和相對熵（KL散度）？

SVM與樹模型之間的區別
（1）SVM
SVM是通過核函數將樣本映射到高緯空間，再通過線性的SVM方式求解分界面進行分類。對缺失值比較敏感可以解決高緯度的問題，可以避免局部極小值的問題，可以解決小樣本機器學習的問題　　
（2）樹模型
可以解決大樣本的問題，易於理解和解釋，會陷入局部最優解、易過擬合
樸素貝葉斯的樸素是什麼意思？
樸素指的是各個特徵之間相互獨立。
解釋貝葉斯公式和樸素貝葉斯分類。
貝葉斯公式，
，
最小化分類錯誤的貝葉斯最優分類器等價於最大化後驗概率。
基於貝葉斯公式來估計後驗概率的主要困難在於，條件概率是所有屬性上的聯合概率，難以從有限的訓練樣本直接估計得到。樸素貝葉斯分類器採用了屬性條件獨立性假設，對於已知的類別，假設所有屬性相互獨立。這樣，樸素貝葉斯分類則定義爲
如果有足夠多的獨立同分布樣本，那麼可以根據每個類中的樣本數量直接估計出來。在離散情況下先驗概率可以利用樣本數量估計或者離散情況下根據假設的概率密度函數進行最大似然估計。樸素貝葉斯可以用於同時包含連續變量和離散變量的情況。如果直接基於出現的次數進行估計，會出現一項爲0而乘積爲0的情況，所以一般會用一些平滑的方法，例如拉普拉斯修正，

這樣既可以保證概率的歸一化，同時還能避免上述出現的現象。
隨機森林的隨機性指的是？
1.決策樹訓練樣本是有放回隨機採樣的；
2.決策樹節點分裂特徵集是有放回隨機採樣的；
隨機森林和GBDT算法的區別？
1.並行和串行
隨機森林是並行算法，GBDT算法是串行算法
2.決策方式
隨機森林分類問題採用大多數投票選舉法，迴歸問題採用各基分類器結果的平均值；GBDT算法採用各基分類器預測結果的累加和；
3.樣本選擇
隨機森林各基分類器採用有放回隨機採樣的方式；GBDT則使用所有的樣本；
4.偏差、方差
隨機森林通過降低方差提高性能；GBDT通過降低偏差提高性能；
5.異常值
隨機森林對異常值不敏感；GBDT對異常值敏感；
用其他方式實現字典的功能（哈希表）
鏈表時一種常用的數據結構，是通過“鏈”來建立起數據元素之間的邏輯關係，這種用鏈接方式儲存的線性表簡稱鏈表（Link List）。