"餘弦相似性"(cosine similiarity)比較相似文章



基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度

(1)利用分詞器分詞

(2)詞頻統計

(3)組建詞頻向量

(4)對兩向量求解餘弦值

注: 中科大的ICTCLAS分詞系統

摘抄自網絡http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

發佈了15 篇原創文章 · 獲贊 5 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章