假設我們手頭有大量的文檔(或網頁), 通常我們會比較關心以下幾個問題:
1. 每一個文檔的關鍵詞(或主題詞)包括哪些?
2. 給定一個(或一組)關鍵詞,與這個(或組)詞最相關的文檔是哪一個?
3. 給定一個文檔,哪個(或哪些)文檔與它具有最大的相似度呢?
回答上述三個問題的關鍵是:對於一個給定的詞和一個給定的文檔,定義一個可以用來衡量該詞對該文檔相關性(或重要性)的指標。那麼,如何定義這樣的一個指標呢?
本文將簡要介紹詞頻-逆文檔頻度(Term Frequency - Inverse Document Frequency,TF-IDF)技術,它是一種用於資訊檢索與文本挖掘的常用加權技術,可以用來評估一個詞對於一個文檔集或語料庫中某個文檔的重要程度。
作者: peghoty
出處: http://blog.csdn.net/itplus/article/details/20958185
歡迎轉載/分享, 但請務必聲明文章出處.