TF-IDF與餘弦相似性的應用（二）：找出相似文章

原創

Mr愚先森

2019-02-14 22:50

今天，我們再來研究另一個相關的問題。有些時候，除了找到關鍵詞，我們還希望找到與原文章相似的其他文章。比如，"Google新聞"在主新聞下方，還提供多條相似的新聞。

爲了找出相似的文章，需要用到"餘弦相似性"（cosine similiarity）。下面，我舉一個例子來說明，什麼是"餘弦相似性"。

爲了簡單起見，我們先從句子着手。

　　句子A：我喜歡看電視，不喜歡看電影。

　　句子B：我不喜歡看電視，也不喜歡看電影。

請問怎樣才能計算上面兩句話的相似程度？

基本思路是：如果這兩句話的用詞越相似，它們的內容就應該越相似。因此，可以從詞頻入手，計算它們的相似程度。

第一步，分詞。

　　句子A：我/喜歡/看/電視，不/喜歡/看/電影。

　　句子B：我/不/喜歡/看/電視，也/不/喜歡/看/電影。

第二步，列出所有的詞。

　　我，喜歡，看，電視，電影，不，也。

第三步，計算詞頻。

　　句子A：我 1，喜歡 2，看 2，電視 1，電影 1，不 1，也 0。

　　句子B：我 1，喜歡 2，看 2，電視 1，電影 1，不 2，也 1。

第四步，寫出詞頻向量。

　　句子A：[1, 2, 2, 1, 1, 1, 0]

　　句子B：[1, 2, 2, 1, 1, 2, 1]

到這裏，問題就變成了如何計算這兩個向量的相似程度。

我們可以把它們想象成空間中的兩條線段，都是從原點（[0, 0, ...]）出發，指向不同的方向。兩條線段之間形成一個夾角，如果夾角爲0度，意味着方向相同、線段重合；如果夾角爲90度，意味着形成直角，方向完全不相似；如果夾角爲180度，意味着方向正好相反。因此，我們可以通過夾角的大小，來判斷向量的相似程度。夾角越小，就代表越相似。