【論文筆記】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

原創

2020-02-25 18:11

導讀

這篇文章感覺挺有意思，2002年CIKM的文章。
在我的todo list裏面雖然已經一個月了，但是之前主要是奔着他的 hierarchy evaluation來的，現在看看其實他主要的contribution是大量的實驗+自己提出的constrained agglomerative algorithms
（話說做hierarchy clustering evaluation的人真少啊，我找了非常久，來來去去就那麼幾篇好點的文章。自己思考做這個方向的人少是因爲:

1 聚類算法本身無監督，特別難以定論在所有的情況下都是這個算法好。

2 很少有人本身就是做聚類算法改進的，畢竟要實驗需要在不同的人物上做大量的實驗。圖片聚類、文本聚類、人物畫像聚類等等。數據集大小又因人而異。

3 大部分都聚類也不是很需要層次聚類（你看我上面舉的三個例子，跟層級沒有一定的聯繫吧…

這三個理由互成因果。沒什麼需求導致小方向，小方向又導致沒什麼新鮮血液來研究。

doc-level聚類這個任務我之前沒有做過，但是光從文檔這個級別上來思考，可操作的特徵非常多，會比我們自己做的任務要簡單。畢竟我們是sentence level的。

Abstract

主要說在文檔分類這個任務下
比較了大量的 agglomerative 和 partitional 兩類hierarchy聚類算法
然後partitional算法總是要好一些，但是自己提出的算法比這兩者效果都好。

Introduction

1 先出現的agglo類別的hierarchy clustering，再是partitional

2 partitional算力要求低，但是聚類質量上要比aggo差一些（爲什麼?

3 比較了多個split criterion和 merge scheme

4 提出新的算法，先用partitional算法到中間低聚類層級，然後對中間層級的每一個類進行aggo聚類，把子樹接上去，佛了。

Clustering Criterion Function

一共有4種類型的聚類優化

1 external，着重於強調每個cluster的區別

2 internal，着重於cluster內部instance的優化

3 graph-based，把所有的instance分成graph再進行操作

4 hybrid，上述的某些混合。

震驚！這文章比了15個算法分別在12個數據集上的效果

5.2 Experimental Methodology and Metrics

重點講講這個吧，我就想看個這個。

1 給定一個 $L_r$ 類別下的instance,size爲 $n_r$ | 以及一個特定的聚類 $S_i$ ，size爲 $n_i$

注意這裏沒有說明誰大誰小哦，聚類的結果可以遠大於 $L_r$ 的哦
別問這裏爲什麼有 $L_r$ ，不然怎麼evaluation？聚類出來不能自己肉眼看吧

2 假定在這個聚類 $S_i$ 中存在 $n_{ri}$ 個instance屬於類別 $L_r$

3 FScore measure:

$F(L_r, S_i) = \frac {2*R(L_r, S_i)*P(L_r, S_i)} {R(L_r, S_i)+P(L_r, S_i)}$
其中的P, R自然是Precision和Recall
度量的是 $n_{ri}$ 和 $n_r$

4 每一個類別，都要對所有的聚類進行這樣的度量。選取其中最大的F值表示，所有聚類結果 $T$ 中，最接近預定義的類別 $L_r$ 的是某個 $S_i$ 。

i.e.
$F(L_r) = \max\limits_{S_i \in T}(F(L_r, S_i))$

5 最終再normalize出一個整體的overall的F Score，因爲不同 $L$ 下的instance數量不同

$FScore = \sum\limits_{r=1}^{c} \frac{n_r}{n}F(L_r)$

這也就是當前聚類算法下，在當前數據集中的最終FScore

結語

這個Evaluation非常的好，論文工作量也非常大，創新點也有。700+引用實至名歸。

這個Cluster的FScore是在1999年的SIGKDD上Fast and effective text mining using linear-time document clustering提出來的。有必要稍微再去看一下

不過讓我覺得比較可惜的是，雖然這篇說了是一個hierarchy clustering的evaluation，但是隻是算法換成了層級聚類，evaluation的標準還是普通聚類的都用的一個標準。這樣並沒有度量hierarchy這個樹形結構是否符合標準

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【論文筆記】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

導讀

Abstract

Introduction

Clustering Criterion Function

5.2 Experimental Methodology and Metrics

1 給定一個 $L_r$ 類別下的instance,size爲 $n_r$ | 以及一個特定的聚類 $S_i$ ，size爲 $n_i$

2 假定在這個聚類 $S_i$ 中存在 $n_{ri}$ 個instance屬於類別 $L_r$

3 FScore measure:

4 每一個類別，都要對所有的聚類進行這樣的度量。選取其中最大的F值表示，所有聚類結果 $T$ 中，最接近預定義的類別 $L_r$ 的是某個 $S_i$ 。

5 最終再normalize出一個整體的overall的F Score，因爲不同 $L$ 下的instance數量不同

結語

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

【論文筆記】Auto-Encoding Variational Bayes

【論文筆記】Deep Metric Learning via Facility Location

【論文筆記】Joint Unsupervised Learning of Deep Representations and Image Clusters

【論文筆記】On How to Perform a Gold Standard Based Evaluation of Ontology Learning

【Python3】深層結構中的值刪除問題/ python列表刪除值出錯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【論文筆記】Evaluation of Hierarchical Clustering Algorithms for Document Datasets

導讀

Abstract

Introduction

Clustering Criterion Function

5.2 Experimental Methodology and Metrics

1 給定一個LrL_rLr​類別下的instance,size爲nrn_rnr​ | 以及一個特定的聚類SiS_iSi​，size爲nin_ini​

2 假定在這個聚類SiS_iSi​中存在nrin_{ri}nri​個instance屬於類別LrL_rLr​

3 FScore measure:

4 每一個類別，都要對所有的聚類進行這樣的度量。選取其中最大的F值表示，所有聚類結果TTT中，最接近預定義的類別LrL_rLr​的是某個SiS_iSi​。

5 最終再normalize出一個整體的overall的F Score，因爲不同LLL下的instance數量不同

結語

1 給定一個 $L_r$ 類別下的instance,size爲 $n_r$ | 以及一個特定的聚類 $S_i$ ，size爲 $n_i$

2 假定在這個聚類 $S_i$ 中存在 $n_{ri}$ 個instance屬於類別 $L_r$

4 每一個類別，都要對所有的聚類進行這樣的度量。選取其中最大的F值表示，所有聚類結果 $T$ 中，最接近預定義的類別 $L_r$ 的是某個 $S_i$ 。

5 最終再normalize出一個整體的overall的F Score，因爲不同 $L$ 下的instance數量不同