機器學習2018-12-28

機器學習 組成
主要任務
分類(classification):將實例數據劃分到合適的類別中。
應用實例:判斷網站是否被黑客入侵(二分類),手寫數字的自動識別(多分類)
迴歸(regression):主要用於預測數值型數據
應用實例:股價價格波動的預測,房屋價格的預測等。

監督學習(superviesd learning)
必須確定目標變量的值,以便機器學習算法可以發現特徵和目標變量之間的關係。在監督學習中,給定一組數據,我們知道正確的輸出結果應該是什麼樣子,並且知道在輸入和輸出之間有着一個特定的關係。(包括:分類和迴歸)
樣本集:訓練數據+測試數據
訓練樣本=特徵(feature)+目標變量(label:分類-離散值/迴歸-連續值)
特徵通常是訓練樣本集的列,它們是獨立測量得到的。
目標變量:目標變量是機器學習預測算法的測試結果。
在分類算法中目標變量的類型通常是標稱型(如:真與假),二組迴歸算法中通常是連續型(如:1~100)。
監督學習需要注意的問題:
偏置方差權衡
功能的複雜性和數量的訓練數據
輸入空間的維數
噪聲中的輸出值

非監督學習(unsupervised learning)
在機器學習,無監督學習的問題是,在未加標籤的數據中,試圖找到隱藏的結構。因爲提供給學習者的實例是未標記的,因此沒有錯誤或報酬信號來評估潛在的解決方案。
無監督學習是密切相關的統計數據密度估計的問題。然而無監督學習還包括尋求,總結和解釋數據的主要特點等諸多技術。在無監督學習使用的許多方法是基於用於處理數據的數據挖掘方法。
數據沒有類別信息,也不會給定目標值。
非監督學習包括的類型:
聚類:在無監督學習中,將數據集分成由類似的對象組成多個類的過程稱爲聚類。
密度估計:通過樣本分佈的緊密程度,來估計與分組的相似性。
此外,無監督學習還可以減少數據特徵的難度,以便我們可以使用二維或三維圖形更加直觀地展示數據信息。

k-近鄰算法
k 近鄰算法的輸入爲實例的特徵向量,對應於特徵空間的點;輸出爲實例的類別,可以取多類。k 近鄰算法假設給定一個訓練數據集,其中的實例類別已定。分類時,對新的實例,根據其 k 個最近鄰的訓練實例的類別,通過多數表決等方式進行預測。因此,k近鄰算法不具有顯式的學習過程

KNN原理
KNN工作原理
1、假設有一個帶有標籤的樣本數據集(訓練樣本集),其中包含每條數據與所屬分類的對應關係。
2、輸入沒有標籤的新數據後,將新數據的每個特徵與樣本集中數據對應的特徵進行比較。
i.計算新數據與樣本數據集中每條數據的距離。
ii.對求得的所有距離進行排序(從小到大,越小表示越相似)。
iii.取前k(k一般小於等於20)個樣本數據對應的分類標籤。
3、求k個數據中出現次數最多的分類標籤作爲新數據的分類。

決策樹 原理
決策樹的定義:分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點(node)和有向邊(directed edge)組成。結點有兩種類型:內部結點(internal node)和葉結點(leaf node)。內部結點表示一個特徵或屬性(feature),葉結點表示一個類(labels)。
用決策樹對需要測試的實例進行分類:從根節點開始,對實例的某一特徵進行測試,根據測試結果,將實例分配到其子結點;這時,每一個子結點對應着該特徵的一個取值。如此遞歸地對實例進行測試並分配,直至達到葉結點。最後將實例分配到葉結點的類中。

決策樹 須知概念
信息熵&信息增益
熵(entropy):熵指的是體系的混亂的程度。
信息論中的熵(香農熵):一種信息的度量方式,表示信息的混亂程度,也就是說:信息越有序,信息熵越低。
信息增益(information gain):在劃分數據集前後信息發生的變化成爲信息增益。
決策樹

樸素貝葉斯
貝葉斯理論
貝葉斯決策理論核心思想:選擇具有最高概率的決策。

Logistic迴歸
Logistic 迴歸 或者叫邏輯迴歸 雖然名字有迴歸,但是它是用來做分類的。其主要思想是: 根據現有數據對分類邊界線(Decision Boundary)建立迴歸公式,以此進行分類。

支持向量機
SVM是一種監督學習算法。
支持向量就是離分隔超平面最近的那些點。
SVM
核函數

隨機森林和AdaBoost
三個臭皮匠頂個諸葛亮

線性迴歸
樹迴歸 CART(Classification And Regression Trees, 分類迴歸樹)

K-Means(K-均值)聚類算法

使用Apriori算法進行關聯分析
關聯分析是一種在大規模數據集中尋找有趣關係的任務。這些關係可以由兩種形式:
頻繁項集(frequent item sets):經常出現在一塊的物品的集合。
關聯規則(associational rules):暗示兩種物品之間可能存在很強的關係。
使用FP-growth算法來高效發現頻繁項集

降維技術
在以下3種降維技術中, PCA的應用目前最爲廣泛,因此本章主要關注PCA。
1、主成分分析(Principal Component Analysis, PCA)
通俗理解:就是找出一個最主要的特徵,然後進行分析。
例如: 考察一個人的智力情況,就直接看數學成績就行(存在:數學、語文、英語成績)
因子分析(Factor Analysis)
通俗理解:將多個實測變量轉換爲少數幾個綜合指標。它反映一種降維的思想,通過降維將相關性高的變量聚在一起,從而減少需要分析的變量的數量,而減少問題分析的複雜性
例如: 考察一個人的整體情況,就直接組合3樣成績(隱變量),看平均成績就行(存在:數學、語文、英語成績)
應用的領域:社會科學、金融和其他領域
在因子分析中,我們
假設觀察數據的成分中有一些觀察不到的隱變量(latent variable)。
假設觀察數據是這些隱變量和某些噪音的線性組合。
那麼隱變量的數據可能比觀察數據的數目少,也就說通過找到隱變量就可以實現數據的降維。
獨立成分分析(Independ Component Analysis, ICA)
通俗理解:ICA 認爲觀測信號是若干個獨立信號的線性組合,ICA 要做的是一個解混過程。
例如:我們去ktv唱歌,想辨別唱的是什麼歌曲?ICA 是觀察發現是原唱唱的一首歌【2個獨立的聲音(原唱/主唱)】。
ICA 是假設數據是從 N 個數據源混合組成的,這一點和因子分析有些類似,這些數據源之間在統計上是相互獨立的,而在 PCA 中只假設數據是不 相關(線性關係)的。
同因子分析一樣,如果數據源的數目少於觀察數據的數目,則可以實現降維過程。
主成分分析
MapReduce機器學習
來源於 ApacheCN

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章