【論文筆記】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

導讀

這篇文章感覺挺有意思,2002年CIKM的文章。
在我的todo list裏面雖然已經一個月了,但是之前主要是奔着他的 hierarchy evaluation來的,現在看看其實他主要的contribution是大量的實驗+自己提出的constrained agglomerative algorithms
(話說做hierarchy clustering evaluation的人真少啊,我找了非常久,來來去去就那麼幾篇好點的文章。自己思考做這個方向的人少是因爲:

  • 1 聚類算法本身無監督,特別難以定論在所有的情況下都是這個算法好。
  • 2 很少有人本身就是做聚類算法改進的,畢竟要實驗需要在不同的人物上做大量的實驗。圖片聚類、文本聚類、人物畫像 聚類等等。數據集大小又因人而異。
  • 3 大部分都聚類也不是很需要層次聚類(你看我上面舉的三個例子,跟層級沒有一定的聯繫吧…

這三個理由互成因果。沒什麼需求導致小方向,小方向又導致沒什麼新鮮血液來研究。

doc-level聚類這個任務我之前沒有做過,但是光從文檔這個級別上來思考,可操作的特徵非常多,會比我們自己做的任務要簡單。畢竟我們是sentence level的。

Abstract

主要說在文檔分類這個任務下
比較了大量的 agglomerative 和 partitional 兩類hierarchy聚類算法
然後partitional算法總是要好一些,但是自己提出的算法比這兩者效果都好。

Introduction

  • 1 先出現的agglo類別的hierarchy clustering,再是partitional
  • 2 partitional算力要求低,但是聚類質量上要比aggo差一些(爲什麼?
  • 3 比較了多個split criterion和 merge scheme
  • 4 提出新的算法,先用partitional算法到中間低聚類層級,然後對中間層級的每一個類進行aggo聚類,把子樹接上去,佛了。

Clustering Criterion Function

一共有4種類型的聚類優化

  • 1 external,着重於強調每個cluster的區別
  • 2 internal,着重於cluster內部instance的優化
  • 3 graph-based,把所有的instance分成graph再進行操作
  • 4 hybrid,上述的某些混合。

震驚!這文章比了15個算法分別在12個數據集上的效果

5.2 Experimental Methodology and Metrics

重點講講這個吧,我就想看個這個。

1 給定一個LrL_r類別下的instance,size爲nrn_r | 以及一個特定的聚類SiS_i,size爲nin_i

注意這裏沒有說明誰大誰小哦,聚類的結果可以遠大於LrL_r的哦
別問這裏爲什麼有LrL_r,不然怎麼evaluation?聚類出來不能自己肉眼看吧

2 假定在這個聚類SiS_i中存在nrin_{ri}個instance屬於類別LrL_r
3 FScore measure:

F(Lr,Si)=2R(Lr,Si)P(Lr,Si)R(Lr,Si)+P(Lr,Si) F(L_r, S_i) = \frac {2*R(L_r, S_i)*P(L_r, S_i)} {R(L_r, S_i)+P(L_r, S_i)}
其中的P, R自然是Precision和Recall
度量的是nrin_{ri}nrn_r

4 每一個類別,都要對所有的聚類進行這樣的度量。選取其中最大的F值表示,所有聚類結果TT中,最接近預定義的類別LrL_r的是某個SiS_i

i.e.
F(Lr)=maxSiT(F(Lr,Si)) F(L_r) = \max\limits_{S_i \in T}(F(L_r, S_i))

5 最終再normalize出一個整體的overall的F Score,因爲不同LL下的instance數量不同

FScore=r=1cnrnF(Lr) FScore = \sum\limits_{r=1}^{c} \frac{n_r}{n}F(L_r)

這也就是當前聚類算法下,在當前數據集中的最終FScore

結語

這個Evaluation非常的好,論文工作量也非常大,創新點也有。700+引用實至名歸。

這個Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出來的。有必要稍微再去看一下

不過讓我覺得比較可惜的是,雖然這篇說了是一個hierarchy clustering的evaluation,但是隻是算法換成了層級聚類,evaluation的標準還是普通聚類的都用的一個標準。這樣並沒有度量hierarchy這個樹形結構是否符合標準

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章