新聞之主題相似計算

新聞轉載非常多,搜索新聞時常常碰到,結果裏有很多相似新聞出現在一個頁面,影響用戶查看。

我這裏說個主題(也就是新聞題目)相似計算。

分析:新聞主題大多是經過少量修改,大致狀況是,加轉載,截取主題,換個類似主題。

解決:過濾一些無意義字符,以主題的單個字符爲hashtable主鍵,比較後計算相同key的出現次數,以它爲分子,較小的hashtable長度爲分母,獲得一個比值,將它和一個常量(反覆測試後獲得的相似率)比較,一旦大於就認爲其相似。

實際過程根據自己需要做些小調整,以上計算有最短長度限制(小於該長度的主題不計算)。

很早以前寫得,現在工作中使用的,效果還行。
發佈了43 篇原創文章 · 獲贊 0 · 訪問量 2241
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章