導讀
這篇文章感覺挺有意思,2002年CIKM的文章。
在我的todo list裏面雖然已經一個月了,但是之前主要是奔着他的 hierarchy evaluation來的,現在看看其實他主要的contribution是大量的實驗+自己提出的constrained agglomerative algorithms
(話說做hierarchy clustering evaluation的人真少啊,我找了非常久,來來去去就那麼幾篇好點的文章。自己思考做這個方向的人少是因爲:
- 1 聚類算法本身無監督,特別難以定論在所有的情況下都是這個算法好。
- 2 很少有人本身就是做聚類算法改進的,畢竟要實驗需要在不同的人物上做大量的實驗。圖片聚類、文本聚類、人物畫像 聚類等等。數據集大小又因人而異。
- 3 大部分都聚類也不是很需要層次聚類(你看我上面舉的三個例子,跟層級沒有一定的聯繫吧…
這三個理由互成因果。沒什麼需求導致小方向,小方向又導致沒什麼新鮮血液來研究。
doc-level聚類這個任務我之前沒有做過,但是光從文檔這個級別上來思考,可操作的特徵非常多,會比我們自己做的任務要簡單。畢竟我們是sentence level的。
Abstract
主要說在文檔分類這個任務下
比較了大量的 agglomerative 和 partitional 兩類hierarchy聚類算法
然後partitional算法總是要好一些,但是自己提出的算法比這兩者效果都好。
Introduction
- 1 先出現的agglo類別的hierarchy clustering,再是partitional
- 2 partitional算力要求低,但是聚類質量上要比aggo差一些(爲什麼?
- 3 比較了多個split criterion和 merge scheme
- 4 提出新的算法,先用partitional算法到中間低聚類層級,然後對中間層級的每一個類進行aggo聚類,把子樹接上去,佛了。
Clustering Criterion Function
一共有4種類型的聚類優化
- 1 external,着重於強調每個cluster的區別
- 2 internal,着重於cluster內部instance的優化
- 3 graph-based,把所有的instance分成graph再進行操作
- 4 hybrid,上述的某些混合。
震驚!這文章比了15個算法分別在12個數據集上的效果
5.2 Experimental Methodology and Metrics
重點講講這個吧,我就想看個這個。
1 給定一個類別下的instance,size爲 | 以及一個特定的聚類,size爲
注意這裏沒有說明誰大誰小哦,聚類的結果可以遠大於的哦
別問這裏爲什麼有,不然怎麼evaluation?聚類出來不能自己肉眼看吧
2 假定在這個聚類中存在個instance屬於類別
3 FScore measure:
其中的P, R自然是Precision和Recall
度量的是和
4 每一個類別,都要對所有的聚類進行這樣的度量。選取其中最大的F值表示,所有聚類結果中,最接近預定義的類別的是某個。
i.e.
5 最終再normalize出一個整體的overall的F Score,因爲不同下的instance數量不同
這也就是當前聚類算法下,在當前數據集中的最終FScore
結語
這個Evaluation非常的好,論文工作量也非常大,創新點也有。700+引用實至名歸。
這個Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出來的。有必要稍微再去看一下
不過讓我覺得比較可惜的是,雖然這篇說了是一個hierarchy clustering的evaluation,但是隻是算法換成了層級聚類,evaluation的標準還是普通聚類的都用的一個標準。這樣並沒有度量hierarchy這個樹形結構是否符合標準