特徵選擇和特徵抽取

原創

2019-09-15 13:52

特徵提取算法分爲特徵選擇和特徵抽取兩大類。
特徵選擇：不改變原始的特徵數據，只是選擇一部分出來。其中常用的特徵選擇算法有：
（1）DF(Document Frequency) 文檔頻率
DF:統計特徵詞出現的文檔數量，用來衡量某個特徵詞的重要性
（2）MI(Mutual Information) 互信息法
互信息法用於衡量特徵詞與文檔類別直接的信息量。
如果某個特徵詞的頻率很低，那麼互信息得分就會很大，因此互信息法傾向"低頻"的特徵詞。相對的詞頻很高的詞，得分就會變低，如果這詞攜帶了很高的信息量，互信息法就會變得低效。
（3）(Information Gain) 信息增益法
通過某個特徵詞的缺失與存在的兩種情況下，語料中前後信息的增加，衡量某個特徵詞的重要性。
（4）CHI(Chi-square) 卡方檢驗法
利用了統計學中的"假設檢驗"的基本思想：首先假設特徵詞與類別直接是不相關的
如果利用CHI分佈計算出的檢驗值偏離閾值越大，那麼更有信心否定原假設，接受原假設的備則假設：特徵詞與類別有着很高的關聯度。
（5）WLLR(Weighted Log Likelihood Ration)加權對數似然
（6）WFO（Weighted Frequency and Odds）加權頻率和可能性
特徵抽取：進行了特徵由高維到低維的映射，特徵實際上產生了一定的變化。常用的算法爲主成分分析（PCA）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

特徵選擇和特徵抽取

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

基本數據結構——線性結構（列表/無序表）

算法複雜度評價指標（大o表示法）

“變位詞”判斷問題及算法複雜度

基本數據結構——線性結構（有序表）

python兩種內置數據類型（列表list和字典dict）上各個操作的大O數量級

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結