機器學習基礎概念

1.基礎概念:

(1) 10折交叉驗證:英文名是10-fold cross-validation,用來測試算法的準確性。是常用的測試方法。將數據集分成10份。輪流將其中的9份作爲訓練數據,1分作爲測試數據,進行試驗。每次試驗都會得出相應的正確率(或差錯率)。10次的結果的正確率(或差錯率)的平均值作爲對算法精度的估計,一般還需要進行多次10折交叉驗證,在求其平均值,對算法的準確性進行估計。

(2) 極大似然估計:極大似然估計,只是一種概率論在統計學中的應用,它是參數評估的方法之一。說的已知某個隨機樣本滿足某種概率分佈,但是其中具體的參數不清楚,參數估計通過若干次實驗,觀察其結果,利用結果推出參數的大概值。極大似然估計是建立在這樣的思想上的:已知某個參數能使這個樣本出現的概率最大。我們當然不會再去選擇其他其他小概率的樣本,所以乾脆就把這個參數作爲估計的真實值。

(3) 在信息論中,表示的是不確定性的量度。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義爲”用來消除不確定性的東西“。熵的定義爲信息的期望值。

ps:熵指的是體系的混亂程度,它在控制論,概率論,數論,天體物理,生命科學等領域都有重要的應用,在不同的學科中也有引申出更爲具體的定義,是各個領域十分重要的參量。熵由魯道夫.克勞修斯提出,並應用在熱力學中。後來在,克勞德.埃爾伍德.香農第一次將熵的概念引入到信息論中來。

(4) 後驗概率是信息論的基本概念之一。在一個通信系統中,在收到某個消息之後,接收端所瞭解到的該消息發送的概率稱爲後驗證概率。後驗概率是指在得到”結果“的信息後重新修正的概率,如貝葉斯公式中的。是執果尋因的問題。後驗概率和先驗概率有着不可分割的聯繫,後驗的計算要以先驗概率爲基礎,其實說白了後驗概率其實就是條件概率。

(5) PCA 主成分分析:
優點:降低數據的複雜性,識別最重要的多個特徵。
缺點:不一定需要,且可能損失有用信息。
適用適用類型:數值型數據。
技術類型:降維技術。

簡述:在PCA中,數據從原來的座標系轉換到了新的座標系,新座標系的選擇是由數據本身決定的。第一個新座標軸選擇時原始數據中方差最大的方向,第二個新座標軸的選擇和第一個座標軸正交且具有最大方差的方向。該過程一直重複,重複次數爲原始數據中特徵的數目。會發現大部分方差都包含在最前面的幾個新座標軸中。因此,可以忽略餘下的座標軸,即對數據進行了降維處理。除了PCA主成分分析技術,其他降維技術還有ICA(獨立成分分析),因子分析等

(6) 將不同的分類器組合起來,而這種組合結果則被稱爲集成方法(ensemble method)或者元算法(meta-algorithm)。

(7) 迴歸算法和分類算法很像,不過迴歸算法和分類算法輸出標稱型類別值不同的是,迴歸方法會預測出一個連續的值,即迴歸會預測出具體的數據,而分類只能預測類別。

(8) SVD(singular value decomposition) 奇異值分解:
優點:簡化數據,去除噪聲,提高算法的結果。
缺點:數據轉換可能難以理解。
適用數據類型:數值型數據。
ps:SVD是矩陣分解的一種類型。

總結:SVD是一種強大的降維工具,我們可以利用SVD來逼近矩陣並從中提取重要特徵。通過保留矩陣80%~90%的能量,就可以得到重要的特徵並去掉噪聲。SVD已經運用到多個應用中,其中一個成功的應用案例就是推薦引擎。推薦引擎將物品推薦給用戶,協同過濾則是一種基於用戶喜好和行爲數據的推薦和實現方法。協同過濾的核心是相似度計算方法,有很多相似度計算方法都可以用於計算物品或用戶之間的相似度。通過在低維空間下計算相似度,SVD提高了推薦引擎的效果。

(9)共線性:是指線性迴歸模型中的解釋變量之間由於存在精確的相關關係或高度相關關係而使模型估計失真或難以估計。

 

——來自SOTON數據分析微信文章

發佈了76 篇原創文章 · 獲贊 26 · 訪問量 19萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章