機器學習-非監督學習(Unüberwachte Lernverfahren)+大型數據庫:Clustering-2

概念聚類(Clustering mit kategorischen Attributen)

我們至今爲止看到的聚類的方法都只適用於對應的屬性值是數字的情況,但是當屬性不是數字時,我們又該怎麼做呢???比如購物車分析時,對應的屬性值的類型就是布爾型的,他對應的值域是{true, false}。而一般的情況下屬性對應的值域是一個有限值的集合。

比較經典聚類和概念聚類

在經典聚類中:
1.相識性取決於數值的相似性函數
(Definition der Ähnlichkeit auf der Basis einer meist numerischen Ähnlichkeitsfunktion)
2.這種相似性的標準是環境無關的(上下文無關的),也就是說環境對此無絲毫的影響
(Ähnlichkeitsmaß ist kontextfrei, d.h. Umgebung spielt keine Rolle)
3.沒有使用概念上的關聯//這個不知是指啥
(keine Ausnutzung konzeptureller Zusammenhänge)
4.沒有使用結構屬性//還是不懂???
(Keine Verwendung von Gestalteigenschaften)
5.相似性與生成的簡單的文本描述無關 //???
(Ähnlichkeit hängt nicht von der Einfachheit der resultierenden Beschreibungen ab)
/*
Ziel:
wie können Beispiele in Klassen bezüglich ihrer Ähnlickkeit geordnet werden??
keine Klasseninformationen gegeben
Beipielhafte AlgorithmenÖ
COBWEB:
Lernen von Begriffen für Attribute mit symboischen Wertebereichen
CLASSIT:
Lernen von Begriffen für Attribute mit numerischen Wertebereichen
*/

Clustering mit kategorischen Attributen將遇到的問題

  1. 一般這種情況下項目的數量(Anzahl der Items)或者說屬性的數量將非常大。就像前面提到的購物車的例子,想想amazon上能有多少種商品就知道了。這也就意味着我們要面對的將是一個高維聚類
  2. 具有相同購物行爲的顧客(也就是位於相同簇的對象)購買的東西一般不同//理解不能(Kunden mit ähnlichem Kaufverhalten haben wenig Items gemeinsam)
  3. Verknüpfung zwischen diesen Transaktionen ergibt sich durch andere Transaktionen//理解不能???
  4. 每個簇對應的項目的集合(也就是指分配的維度)的大小不盡相同。很難選擇一個確定的閥值。比如尿布就有很多不同的種類不是嗎???//這一項不是很瞭解,這裏的閥值究竟是指什麼???(Mengen der Items, die Cluster bestimmen, haben unterschiedliche Größen.Wahl der Schwellenwerte ist also schwierig.z.B. Kaviar A,…,Kaviar Z,Lachs 1000,…, Lachs 1199),在購物單集合中,大部分情況是兩張購物單之間,只有幾項是相同的。這也使得越大的簇,他購物單之間的平均距離就越大。最好得方法就是每個簇都有不同的閥值。//還是不理解,高維聚類中簇是針對特定的維度的,那又何必在意原本購物單中的大小呢。而且只要特定維度上分佈緊密,相應的距離也不會增大啊???(Große Menge: Viele Paare von Transaktionen haben wenige Items gemeinsam.Abstände der Transaktionen vom Durchschnitt sind größer in großem Cluster. Wann gehört Transaktion zum Cluster?Idealerweise müssten Schwellenwerte von Cluster zu Cluster unterschiedlich sein.)

一個弱化的傳統的方法(Schwächen traditioneller Definitionen)

用1和0代表布爾值的真和假,然後現在是數字了,就自己看着辦吧。
//然後就是把Agglomerative算法和Jaccard係數對一個例子進行分析。然後得出的結論是。。。我還是找個時間再好好看看吧S13-18
Jaccard Koeffizient是用來量化兩個購物單T1和T2之間相似度的係數,他表示爲:

|T1T2||T1T2|

他的值域是[0,1]

在這裏我們把購物單(也就是數據對象)看成是單個的點
我們規定當兩個點的相識度大於閥值的時候,他們就是鄰居
另外我們規定兩個點之間的links的數量等同於他們相同鄰居的數量
那麼我們的Links算法就是
不斷的合併具有最大得Links數的點(或者說,簇)
//怎麼證明,當閥值取0.5,並且使用Jaccard係數和agglomerative聚類的時候,取得的結果是正確的??
我們也可以對上面的算法進行一些改變:
1.比如我們可以嘗試其他相似度的測量方法??
2.或者我們不用agglomerativ算法,我們使用k means。那麼對應的數據對象就是購物單(Transaktionen),對應的Medoid也是購物單,那麼距離就有links來決定,想想也是挺好的???
結論:
Clustering ist schwierig, wenn Dimensionen kategorisch sind.
Notwendigkeit, Nachbarschaft zu berücksichtigen, wurde demonstriert
Lösung wurde vorgestellt - Algorithmus muss nicht geändert werden, ‘Abstand’ wird geändert.

COBWEB

基本知識

1.通過對結構樹的擴展和調整進行學習
2.通過樹體現多層次概念結構:
(Repräsentation der Begriffshierarchie als Baum)
樹內的每一個分支都代表着把其子樹分割成兩個不同的類型。
(Jede Verzweigung innerhalb des Baumes steht für eine Einteilung der Unterbäume in verschiedene Kategorien)
葉子節點代表一個特定的概念(或類型)
(Blätter sind die speziellsten Begriffe(Kategorien))
3.允許使用名詞變量值。
(Es werden nominale Attributwerte gestattet)
4.挑選合適的類型
測量類型的實用性(category utility)
當滿足下面兩個條件時,我們說一個聚類有比較好得實用性:
1)如果x屬於聚類cj ,那麼我們可以很好的預測x的屬性值v(有比較高的概率)(p(v|c))(predictability/Vorhersagbarkeit)
2)如果已知x的屬性v,可以用比較高的概率推出x是屬於cj 類的(p(c|v))(predictiveness/Vorhersagekraft)
5.最大化同一類型不同實例間的相似性,與此同時最大化不同類型之間的區別。
6.我們找到了一種測量predictability和predictiveness的方法(Category Utility):

CU=
發佈了0 篇原創文章 · 獲贊 2 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章