新聞聚類系統---news.baidu.com

要做一個新聞聚類系統,大概就和http://news.baidu.com類似的。
 可是沒有什麼想法呀!
  怎麼辦呢?
  這樣的新聞,
  要有抓取,存到一種“格式”裏,或XML,或HDFS或DB裏,
  二是要用分類器,基於SVM也好,KNN也好,
  三是要有聚類-carrot2,或其它。
  這樣,三個重要組件都已經想到了,接下來就要設計了
-------------------------------------------

  首選,我先省略第二步,不用分類器來分類,而是自己指定抓取的源,這樣只要做一個抓取和聚類就可以做出和百度新聞類似的系統了。然後後再訓練一個好的分類器。
  我的思路就是這樣,接下來就開始分析,動手了。
good luck!
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章