文本分類的特徵選擇方法

原創

2020-06-16 13:42

https://www.cnblogs.com/wangbogong/p/3251132.html
　在文本挖掘與文本分類的有關問題中，常採用特徵選擇方法。原因是文本的特徵一般都是單詞(term)，具有語義信息，使用特徵選擇找出的k維子集，仍然是單詞作爲特徵，保留了語義信息，而特徵提取則找k維新空間，將會喪失了語義信息。

對於一個語料而言，我們可以統計的信息包括文檔頻率和文檔類比例，所有的特徵選擇方法均依賴於這兩個統計量，目前，文本的特徵選擇方法主要有：DF, MI, IG, CHI，WLLR,WFO六種。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

mysql學習系列：總結數據庫連接不上的數種情況，問題編號：ERROR 1045 (28000)

2020-05-23 10:13:27

小狐狸的測試理論基礎知識總結

測試的定義：通過人工或自動的手段，對被測對象進行檢測活動，目的在於是否滿足用戶需求。測試的目的：1、發現被測對象與用戶需求的差異；2、發現並解決被測對象的缺陷；3、獲取被測對象的質量信息，爲決策提供數據依據‘’4、以最少的人力、

2020-07-04 20:27:20

初探 spleeter 的人聲分離

記錄一次試用 spleeter 實現的人聲分離。安裝 spleeter 安裝 conda 這裏僅記錄以 linux 安裝 conda： https://conda.io/projects/conda/en/latest/use

2020-07-02 19:59:37

ansible學習系列之tags的使用

文章目錄ansible系列文章場景環境原因嘗試編寫`Role`腳本使用不同標籤進行測試使用`test1`標籤進行測試使用`test2`標籤進行測試使用`test3`標籤進行測試不使用標籤進行測試結果總結參考文檔隨緣求贊 ansib

2020-07-01 22:56:08

深入思考系列——"Synchronization on a non-final field"

文章目錄場景環境原因嘗試錯誤範例正確範例總結隨緣求贊場景程序裏面使用了synchronized關鍵字，IntelliJ IDEA右邊出現了黃色條，移動到上面，提示如下：環境軟件版本 JDK 1.8 I

2020-07-01 22:56:07

spark程序調優總結

目錄目的環境調優步驟參數優化RDD優化rdd複用rdd持久化廣播大變量算子優化mapPartitionsforeachPartitionrepartition存儲文件優化參考鏈接隨緣求贊目的關於spark程序優化總結，包括參數

2020-07-01 22:56:07

關於 redis 的 composer update

摘要記錄一次項目的 composer update 。背景 composer 負責 PHP 項目的依賴管理。當需要升級依賴時，執行「composer update」會根據文件 composer.json 裏的信息進行升級，並在

2020-06-20 18:32:31

LR與SVM簡述

LR與SVM相同點： 1、本質上都是線性（分類）算法； 2、都是有監督的判別模型 LR與SVM不同點 1、目標函數不同 LR的目標函數主要是最小化預測樣本分佈與實際樣本分佈的交叉熵。（邏輯/對數迴歸用極大似然函數求解，一般迴歸用求

2020-06-16 13:42:15

crontab 定時任務在 ThinkPHP 內使用時的問題

2020-05-31 13:00:07

設計模式學習系列：模板方法模式的學習

2020-05-19 05:23:54

Java學習系列：package-info.java的作用

2020-05-09 13:08:50

Java學習系列：比較兩個文件的差異，並輸出差異的部分

2020-05-09 13:08:50

ansible學習系列之become的使用

2020-04-23 23:55:15

composer update

2020-04-12 13:45:56

問題解決：嘗試解決maven依賴找不到的n種姿勢

2020-04-01 23:43:55

24小時熱門文章

最新文章

最新評論文章