論文解讀 Clustering Very Large Multi-dimensional Datasets with MapReduce [KDD 2011]

PPT資源

已製成Latex Beamer版的Slides,下載鏈接

本文總結

本文貢獻

  • 提出 BoW 算法,通過不同的情況下,動態選擇更佳的方法,達到提高效率的目的

  • 通過實驗驗證了算法的有效性和可規模化

  • 基於真實數據進行實驗,而且是當時 (2011) 業內最大規模的數據,可信度高

個人看法

  • 充分利用了在海量數據下,2-8 定律所呈現出的數據特點,針對性想出有創新的方法
  • 基於系統層面的創新,而不是拘泥於單純的聚類算法層面,簡單實用且具有普遍性
  • 一些實驗客觀性不夠,只展示一部分有效的結果
  • 有的評價指標沒有定義清楚
  • 一些很重要的參數,如採樣率等沒有給出相關實驗,說明它對聚類的影響
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章