TF-IDF: 文本的一種向量表示

原創

2020-05-03 06:28

TF-IDF是Term Frequency-Inverse Document Frequency的簡稱。她是一種非常常見的用於將文本轉化爲有意義的數字表示的算法。這個技術被廣泛的應用與NLP的各個方面。本文將會介紹怎樣計算和應用TF-IDF。

文本的向量表示

爲了將機器學習算法或統計技術應用到任何形式的文本上，應當將文本轉化爲數字或向量形式。這種數字表示應當能夠描繪出本文的顯著特徵。有很多技術都可以做到這一點，比如，出現次數(occurrence)，詞頻(term-frequency)，TF-IDF，詞共現矩陣(word co-occurrence matrix)，word2vec和Glove。

基於出現次數的向量表達

由於TF-IDF是一個基於occurence的文本數字化表達，讓我們先來看看之前的基於occurence的方法以及TF-IDF怎樣優於他們。一種最簡單的方法就是用一個詞在整個語料中出現的次數來表達它。

詞頻

我們假設，一個詞的值更高意味着這個詞在給定文本中的重要性越高。這是很正確的想法，但是如果語料中的文本有不同的大小呢？這樣一來，大文本中的詞自然會比小文本中的詞出現次數更多。因此，一個更好的表示就是基於文本的大小對詞的出現次數進行標準化，這個表示被稱作詞頻(term-frequency)。
數學上，一個詞的詞頻的定義如下：
$tf(w) = doc.count(w)/total\,words\,in\,doc$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TF-IDF: 文本的一種向量表示

文本的向量表示

基於出現次數的向量表達

詞頻

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

基於機器學習技術實現一個醫學輔助診斷的專家系統原型

劍指offer7——兩個棧實現隊列

Learning to Ask Good Questions筆記

DKN: Deep Knowledge-Aware Network for News Recommendation閱讀筆記

Improving Question Answering over Incomplete KBs with Knowledge-Aware Reader閱讀筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結