《集體智慧編程》第6章文檔過濾個人筆記

原創

2018-08-24 03:43

第6章文檔過濾

1、前期準備

抽取特徵，整一個就是Feature Engineering=。=簡單的比如分詞統計單詞、詞組個數，大小寫等。
統計特徵在各分類中的數量，每個分類中的文檔數量。
計算條件概率，爲了避免出現有些單詞只出現某一類，導致這些單詞在其他類中的概率爲0，進行一些概率改動。常用的可以用Laplace平滑，這本書提出了加權的概率值。

2、樸素分類器

樸素貝葉斯假設前提：條件概率獨立

$P (C a t e g o r y | D o c u m e n t) = P ( D o c u m e n t | C a t e g o r y ) * P ( C a t e g o r y ) P ( D o c u m e n t )$

對於分母，因爲每次計算時分母值都一樣，所以分母的計算可忽略。
將文檔中所有單詞的條件概率相乘來表示這篇文檔的條件概率。
選擇分類：在垃圾信息過濾的例子中，避免將普通郵件當成垃圾郵件要比截獲每一封垃圾郵件更爲重要。爲了解決這一問題，可以爲每個分類定義域一個最小閾值，對於一封要被劃入到某個分類的新郵件而言，其概率與針對所有其他分類的概率相比，必須大於某個制定的數值才行。

3、費舍爾方法

費舍爾方法將直接計算當一篇文檔出現某個特徵時，該文檔屬於某個分類的可能性。進行歸一化，然後將所有歸一化概率相乘，取自然對數，再將結果乘以-2。最後分類。

4、補充

貝葉斯分類器之所以經常被用於文檔分類的原因是與其他方法相比它所要求的計算資源更少，但樸素分類器無法捕獲特徵之間的相互依賴性，而神經網絡可以。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

《集體智慧編程》數學公式

這篇博客的目的主要是爲了記錄這些公式，取自原書附錄B。 1.歐幾里得距離（Euclidean Distance）用途：計算距離，衡量相似度公式：代碼實現： def euclidean(p, q): sum

清风不识字12138

2020-06-16 12:18:34

集體智慧編程第二章匹配商品

我們在前面學習瞭如何爲指定人員尋找品味相近的人，以及如何向其推薦商品。但是如果我們想了解哪些商品是彼此相近的，應該如何做？匹配商品比如我們去淘寶，點擊某個商品的時候，側面總會給我們推薦一些類似商品。這是如何做到的呢？首先我們要將之

2020-07-08 03:44:42

集體智慧編程第二章提供推薦

我們要知道在購物網站中，如何構建一個系統，用以尋找具有相同品味的人，並根據他人的喜好自動給出推薦。一個協作型過濾算法通常的做法是對一大羣人進行搜索，並從中找到與我們品味相近的一小羣人。算法會對這些人所偏愛的其他內容進行考察，並將它們組合

2020-07-08 03:09:02

集體智慧編程----第三章發現羣組

第三章發現羣組監督學習和無監督學習對博客用戶進行分類對訂閱源中的單詞進行計數分級聚類繪製樹狀圖列聚類K-均值聚類針對偏好的聚類獲取數據和準備數據Beautiful Soup收集來自Zebo的結果定義距離度量標準對結果進行聚類以二維

2020-06-23 22:08:13

chapter7的一個小bug

一開始，作者說如果使用準備好的數據集，可以下載他的decision_tree_example.txt。然後通過my_data = [ line.split('/t') for line in file('decision_tree_ex

2020-06-20 16:56:09

《集體智慧編程》之決策樹（學習筆記）

原理：決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如，在貸款申請中，要對申請的風險大小做出判斷，圖是爲了解決這個問題而建立的一棵決策樹，從中我們可以看到決策樹的基本組成部分：決策節點、分支和葉子。決策樹中最上面的節

2020-06-16 16:34:51

《集體智慧編程》第六章

1.P126代碼爲了定義閾值，請修改初始化方法，在classifier中加入一個新的實例變量： def __init__(self, getfeatures): classifier.__init__(self, ge

清风不识字12138

2020-06-16 12:18:34

集體智慧編程中文版---第二章

中英文術語對照表英文中文 clustering j聚類 computationally intensive 計算量很大的 cross-product 叉乘 dendrogram 樹狀圖 group

2020-06-13 02:29:29

集體智慧編程第三章發現羣組

2020-02-23 09:01:28

《集體智慧編程》第8章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第五章優化

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第九章

清风不识字12138

2020-02-22 14:12:24

《集體智慧編程》第3章發現羣組個人筆記

2020-02-21 10:02:42

《集體智慧編程》第2章提供推薦個人筆記

2020-02-21 10:02:42

《集體智慧編程》第5章優化個人筆記

2020-02-21 10:02:42

24小時熱門文章

24-5-18 X

最新文章

最新評論文章