《統計學習方法》代碼全解析——第十三部分無監督學習概論

1.機器學習或統計學習一般包括監督學習、無監督學習、強化學習。
無監督學習是指從無標註數據中學習模型的機器學習問題。無標註數據是自然得到的數據,模型表示數據的類別、轉換或概率無監督學習的本質是學習數據中的統計規律或潛在結構,主要包括聚類、降維、概率估計。
2.無監督學習可以用於對已有數據的分析,也可以用於對未來數據的預測。學習得到的模型有函數 𝑧=𝑔(𝑥) z=g(x) ,條件概率分佈 𝑃(𝑧|𝑥) P(z|x) ,或條件概率分佈 𝑃(𝑥|𝑧) P(x|z) 。
無監督學習的基本想法是對給定數據(矩陣數據)進行某種“壓縮”,從而找到數據的潛在結構,假定損失最小的壓縮得到的結果就是最本質的結構。可以考慮發掘數據的縱向結構,對應聚類。也可以考慮發掘數據的橫向結構,對應降維。還可以同時考慮發掘數據的縱向與橫向結構,對應概率模型估計。
3.聚類是將樣本集合中相似的樣本(實例)分配到相同的類,不相似的樣本分配到不同的類。聚類分硬聚類和軟聚類。聚類方法有層次聚類和 𝑘 k 均值聚類。
4.降維是將樣本集合中的樣本(實例)從高維空間轉換到低維空間。假設樣本原本存在於低維空間,或近似地存在於低維空間,通過降維則可以更好地表示樣本數據的結構,即更好地表示樣本之間的關係。降維有線性降維和非線性降維,降維方法有主成分分析。
5.概率模型估計假設訓練數據由一個概率模型生成,同時利用訓練數據學習概率模型的結構和參數。概率模型包括混合模型、率圖模型等。概率圖模型又包括有向圖模型和無向圖模型。
6.話題分析是文本分析的一種技術。給定一個文本集合,話題分析旨在發現文本集合中每個文本的話題,而話題由單詞的集合表示。話題分析方法有潛在語義分析、概率潛在語義分析和潛在狄利克雷分配。
7.圖分析的目的是發掘隱藏在圖中的統計規律或潛在結構。鏈接分析是圖分析的一種,主要是發現有向圖中的重要結點,包括 PageRank算法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章