基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度
(1)利用分詞器分詞
(2)詞頻統計
(3)組建詞頻向量
(4)對兩向量求解餘弦值
注: 中科大的ICTCLAS分詞系統
摘抄自網絡http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度
(1)利用分詞器分詞
(2)詞頻統計
(3)組建詞頻向量
(4)對兩向量求解餘弦值
注: 中科大的ICTCLAS分詞系統
摘抄自網絡http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html