概率主題模型簡介 Introduction to Probabilistic Topic Models

轉載:http://www.cnblogs.com/siegfang/archive/2013/01/30/2882391.html

概率主題模型簡介 Introduction to Probabilistic Topic Models

此文爲David M. Blei所寫的《Introduction to Probabilistic Topic Models》的譯文,供大家參考。

摘要:概率主題模型是一系列旨在發現隱藏在大規模文檔中的主題結構的算法。本文首先回顧了這一領域的主要思想,接着調研了當前的研究水平,最後展望某些有所希望的方向。從最簡單的主題模型——潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)出發,討論了其與概率建模的聯繫,描述了用於主題發現的兩種算法。主題模型日新月異,被擴展和應用許多領域,其中不乏有趣之處。我們調研發現很多擴展都弱化了LDA的統計假設,加入元數據(meta-data)進行文檔分析,使用近似的模型分析如社會網絡、圖像和基因這類多樣化的數據類型。我們在文章的最後給出了主題模型目前還未探索但很重要的方向,包括嚴格檢驗數據模型的方法,文本和其它高維數據可視化的新技術,以及如何從傳統信息工程中的應用推廣到更多科學應用。

1 引言

如今公開的知識日益以新聞、博客、網頁、科學論文、書籍、圖像、聲音、視頻和社交網絡的形式被數字化存儲,巨大的信息量同時也增加了人們尋找和發現自己所需要的知識的難度。人們需要新的計算工具以組織、搜索和理解這些龐大的信息量。現在的在線信息挖掘使用兩種主要的工具——搜索和鏈接。向搜索引擎提交關鍵詞就可以找到相關的文檔和其它相鏈接的文檔。這種與在線文檔的交互方式雖然有效,但卻丟失了某些信息。
假設所要搜索和尋找的文檔由各類主題組成。這樣,通過對文章進行“放大”和“縮小”就可以得到較具體或者較粗略的主題;在文檔中就可以看到這些主題是如何隨着時間變化,或者說是如何相互聯繫的。搜索文檔就不只是通過關鍵詞尋找,取而代之的是先找到相關的主題,然後再查找與這一主題相關的文檔。
拿紐約時報所記載的歷史舉例。從較廣的層次來看,報紙中的主題就對應着報紙各個版塊——對外政策、國內事務、體育,再拿對外政策進行“放大”,就可以得到其不同方面——中國對外政策、中東衝突、英國與俄羅斯的關係。接下來,我們跟蹤這些專題是如何隨着時間演變的,例如過去50年裏的中東衝突。如此這般探索就能找到與主題相關的原始文檔。可見,這種主題結構是探索和理解文檔的新窗口。
但以這種方法與電子文檔進行交互是不現實的,因爲隨着網上文本的數量越來越多,單單僅靠人力已經無法全部閱讀和研究所有的文本。由此,概率主題建模應運而生。機器學習領域的研究人員們開發出了一套旨在發現和標記大規模文檔的主題信息的算法。主題建模算法是一種統計方法,它通過分析原文本中的詞以發現蘊藏於其中的主題,主題間的聯繫,以及主題隨時間的演變(就比如後面圖3,通過分析耶魯法律找到主題),而且不需要事前對文檔進行標記。也就是說,人力所無法完成的文檔標記,主題建模算法能夠進行組織和歸納。

2 潛在狄立克雷分配

潛在狄立克雷分配(LDA)是最簡單的主題模型,其基礎是文檔是由多個主題構成的。如圖1所示,《Seeking Life’s Bare(Genetic) Necessities》是一篇對基因數量進行數據分析的文章(基因是有機體賴以進化的基礎)。

圖1:潛在狄立克雷分配的直觀現象。如圖左所示,假設主題是詞語上的概率分佈;圖右是主題直方圖。從直方圖到文章的詞的過程是這樣的:首先隨機產生一個主題直方圖,然後選擇其中一主題,最後從該主題對應的主題分佈中選擇一個詞。這裏的主題和主題直方圖只作說明之用,與文章其實並不相匹配。相匹配的主題見圖2。

文章中不同的詞被高亮在不同的顏色。如“computer”和“prediction”之類有關數據分析的詞以藍色標記;如“life”和“organism”之類關於進化生物學的詞以粉紅色標記;如“sequenced”和“genes”之類有關遺傳學的詞以黃色標記。將所有詞語進行這樣的標記,並剔除“and”、“but”和“if”這類包含極少主題內容的詞語後可以發現,這篇文章由不同主題以不同的比例組成,更進一步地看,多個主題可以幫助人們在一堆科技論文中發現這篇文章。
建立在文檔集合上的統計模型LDA就試圖描述上述直觀的現象。LDA可以看作是一個文檔產生的過程(2.1節將具體解釋概率模型LDA)。形式化地定義主題是固定的詞語的概率分佈。例如,“遺傳學”主題中“genes”的概率就相當高,類似地,“進化生物學”主題中“life”的概率也相對較高。假設所有的主題在文檔產生之前就已經產生且指定。生成文檔(或者說生成文檔中的詞)可以看成是如下兩個過程:

  1. 隨機產生一個主題直方圖(或者說分佈);
  2. 對文檔中的每個詞:
    1. (a) 從第一步產生的直方圖裏隨機選擇一個主題;
    2. (b) 從主題對應的詞語的概率分佈中隨機選擇一個詞。

從文檔產生的過程來看,第一步使得每篇文檔由不同主題以不同比例組成。第二步的第二小步(b)使得每篇文檔中每個詞從一個主題中得來,其中的主題從第一小步(a)得來。實際上,第一步主題直方圖(或者說分佈)是一個狄立克雷分佈(Dirichlet distribution),其作用是將文檔中的詞分配給不同的主題,那爲什麼是潛在的呢?且聽後面分解。
對圖1所示的文章來說,主題直方圖中主題“遺傳學”、“數據分析”和“進化生物學”都會佔一定比例,文章中每個詞都由這三個主題中的一個所給出。文檔集中也可能會有一篇關於“數據分析”和“神經科學”;其主題直方圖中這兩個主題都將佔有一定的比例;這就是潛在狄立克雷分配的顯著特徵——集合中所有文檔共享同一主題集合,但每個文檔中各個主題所佔的比例又都各不相同。
如前引言所述,主題建模的目的是爲了自動地發現文檔集中的主題。文檔自然是可被觀察到的,但主題結構——主題、主題直方圖(或者分佈)和主題的詞分佈——卻是隱藏的。所以主題建模的中心問題就是利用看到的文檔推斷出隱藏的主題結構,其實也就是產生文檔的逆過程。

圖2:圖1的LDA。我們從《自然》上的17000篇文章提取100個主題及其相關詞,然後對圖1所示的文章進行分析,左邊是主題所佔比例的直方圖,右邊是文章常見主題的最常出現的前15個詞。

如圖2所示,就是一個推斷圖1中文章的例子。使用主題建模算法(假設有100個主題)推斷《科學》上17000篇文章的潛在主題結構,然後推斷出最能描述圖1中示例文章的主題分佈(圖左)。需要注意的是,儘管主題分佈上有無窮個主題,但事實上只有其中的一小部分的概率不爲零。進一步地,文章中詞可被分主題進行組織,可以看到最常見的主題所包含的概率最大的詞。
需要強調的是,算法事先並不知道這些主題,文章也未有關鍵詞或主題標記。計算潛在結構得到的主題分佈可以產生所觀察到的文檔集合(由推斷算法產生的主題對所分析的文檔集合幾乎都具有可解釋性,主題似乎與語言的統計結構和LDA的具體概率假設有關)。如圖3顯示了《Yale Law Journal》中發現的主題(這裏設置主題數爲20)。主題由基因和數據分析替換爲歧視和合同法。主題建模是管理、組織和標記大規模文本的一種算法。推斷得到的隱藏結構近似於文檔集的主題結構,能標記文檔集中各個文檔。這代替了痛苦的手工標記,並有助於信息檢索,分類和語料庫搜索。

2.1 LDA和概率模型

LDA和其它主題模型都屬於概率建模這一更大領域。數據被看作是經過包括隱藏變量在內的生成過程得到的。生成過程定義了觀測隨機變量和隱藏隨機變量的聯合概率分佈。通過使用聯合分佈來計算在給定觀測變量下隱藏變量的條件分佈(後驗分佈)來進行數據分析。對於LDA來說,觀測變量就是文檔中的詞;隱藏變量就是主題結構;生成過程如之前所述。那麼推測從文檔中隱藏的主題結構的問題其實就是計算在給定文檔下隱藏變量的條件分佈(後驗分佈)。
形式化地定義如下:所有主題爲β1:K,其中βk是第k個主題的詞的分佈(如圖1左部所示)。第d個文檔中主題所佔的比例爲θd,其中θd,k表示第k個主題在第d個文檔中的比例(圖1右部的直方圖)。第d個文檔的主題全體爲zd,其中zd,n是第d個文檔中第n個詞的主題(如圖1中有顏色的圓圈)。第d個文檔中所有詞記爲wd,其中wd,n是第d個文檔中第n個詞,每個詞都是固定的詞彙表中的元素。那麼LDA的生成過程對應的觀測變量和隱藏變量的聯合分佈如下:

p(β1:K,θ1:D,z1:D,w1:D)=i=1Kp(β)d=1Dp(θd)(n=1Np(zd,n|θd)p(wd,n|β1:K,zd,n))
(1)

這一分佈指明變量之間的依賴關係。例如,zd,n依賴於θd,wd,n依賴於zd,n和β1:K(在操作上,先確定zd,n指的哪個主題,然後再看wd,n在主題中的概率)。正是這些依賴定義了LDA:它們存在於生成過程的統計假設裏,在聯合分佈的特定數學形式裏以及LDA的概率圖模型裏(概率圖模型爲描述概率分佈提供一個圖形化的語言,如圖4所示。事實上概率圖模型是闡明概率獨立、圖理論和計算概率分佈的算法的有力工具)。這三種表現形式在描述LDA的概率假設上是等價的。

圖4:LDA的圖模型。每個結點表示一個隨機變量,並且根據其在生成過程中的角色予以標記(見圖1)。隱藏變量對應的結點是白色的,觀測變量wd,n對應的結點是灰色的。在圖模型中,矩形表示變量的重複。

從歷史來看,潛在語義分析中最具開創性的研究是對文檔詞矩陣進行奇異值分解得到詞之間,文檔之間和文檔與詞之間的潛在聯繫。概率潛在語義分析(probabilistic latent semantic analysis,pLSI)是它的概率版本,而LDA是用以解決pLSI的問題,可以看作是對離散數據進行主成分分析。下一章節將詳細描述LDA的推斷算法。

2.2 LDA後驗概率的計算

使用前面的記號,LDA後驗概率的公式爲

p(β1:K,θ1:D,z1:D|w1:D)=p(β1:K,θ1:D,z1:D,w1:D)p(w1:D)
(2)

分子爲隨機變量的聯合分佈。對於隱藏變量的任何值來說,聯合分佈是容易計算的。分母是觀測變量的邊際概率,是通過觀察可見的語料庫得到的概率。理論上,可以通過將聯合分佈對隱藏變量的所有可能值進行累加得到。但其計算量在實際操作中是異常龐大的(對於一個主題,這種累加包括了將每個詞的所有可能的主題配置,而且文檔集合通常有數量級達百萬的詞)。就像衆多現代概率模型(包括貝葉斯統計)那樣,後驗概率的分母(即先驗概率)往往是無法計算得到的。故而現代概率建模的一個核心研究目標就是盡一切可能接近之。如前圖1和圖3所述的那樣,主題建模算法其實是求得近似後驗分佈的常用方法的一種變種。
主題建模算法主要有兩類:基於採樣的算法和變分算法。基於採樣的算法通過收集後驗分佈的樣本,以樣本的分佈求得後驗分佈的近似。主題建模中最常用的採樣算法是吉布斯採樣(Gibbs sampling),通過吉布斯採樣構造馬爾可夫鏈(Markov chain),而馬爾可夫鏈的極限分佈就是後驗分佈。馬爾可夫鏈是由獨立於前一個隨機變量的隨機變量組成的串。對主題模型來說,隨機變量就是定義在一個特定的語料庫上的隱藏主題。採樣算法從馬爾可夫鏈的極限分佈上收集樣本,再用這些樣本來近似後驗分佈。通常,只有概率最高的樣本會被收集以作爲主題結構的近似。文獻[33]詳細描述了LDA的吉布斯採樣,開源社區裏有R語言的快速開源實現(http://cran.r-project.org/web/packages/lda/index.html)。
變分算法的確定性要比基於採樣算法高上不少。變分算法先假定一族在隱藏結構之上的參數化的分佈,再尋找與後驗分佈最接近的分佈(概率分佈之間的距離使用信息論的Kullback-Leibler散度度量,)。也就說,推斷問題轉換爲了最優化問題。變分算法的創新之處也正在於此,它將最優化引入了概率建模中。文獻[8]介紹了協調上升的變分推斷算法;文獻[20]介紹了一個更爲快速的在線算法(以及開源軟件),它能輕鬆處理上百萬文檔並能適應文本流的集合。
粗略地講,這兩種算法都在主題結構上進行了搜索,而固定的文檔集合提供了搜索的方向。哪種方法更適合取決於所使用的具體的主題模型(下面的章節會介紹除LDA以外的其它主題模型),而這通常是學院派們爭論的導火索。文獻[1]很好地討論了這兩種方法的優缺點。

3 主題建模的研究進展

簡單的LDA模型提供發現和探索大規模文本中隱藏主題結構的有力工具。LDA形式化爲概率模型的一個主要優點在於它可以作爲一個模塊被其它更復雜的模塊應用更爲複雜的應用系統中。

3.1 弱化LDA的假設

LDA由對語料庫的統計假設定義,主題建模研究領域中一個熱點就是如何弱化和擴展這些假設以發現文本中更加複雜的結構。
如果不考慮詞在文檔中的順序,那麼一個文檔就是一個詞袋。“詞袋”就是LDA的一個假設(對於文檔中詞的任意排列,式(1)都不變)。這個假設當然不符合現實,對於複雜的諸如語言生成之類的目標顯然是不合適的,但對發現文本語義結構是有理可循的(緩慢移動圖1文章中的詞,儘管詞移動了位置,文章仍然與遺傳學相關)。LDA上模型的不可交換的詞也有諸多擴展。例如,文獻[36]弱化了詞袋模型,假設主題生成詞時以前一個詞作爲條件;文獻[18]提出了在LDA和隱馬爾可夫模型之間進行切換的主題模型。這些模型顯著地擴展了參數空間,並且顯示了語言建模帶來的性能提升。
LDA的另一個假設是文檔的順序與LDA無關(對於文檔的任意順序的排列,式(1)同樣不變)。但當文檔集所跨越的時間有幾年或幾個世紀時,這個假設可能就不合理了。當遇到這樣的集合時,通常假設主題是隨着時間而發生變化的。這樣,主題就是動態的[5]。動態主題模型考慮了文檔的先後順序,並給出了內涵比LDA更豐富後驗主題結構。圖5展示了使用動態主題模型分析所有科學雜誌得到的一個主題。這個主題就不只是詞的單一分佈,而是詞的一連串分佈。這樣,潛在的主題就可以被發現和跟蹤。

圖5:兩個主題的動態主題模型。這個模型的語料庫是1880年到2002年的《科學》雜誌。圖中每十年提取一些常見詞。

LDA的第三個假設是主題的數量已知且固定。貝葉斯非參數主題模型[34]提供了:在後驗推斷中文檔集決定了主題數量,而且新文檔中會有前面文檔所沒有的主題。貝葉斯非參數主題模型可以通過數據推斷,擴展成一系列從較通用到較具體的主題層次,就像一棵主題樹一樣。
LDA還有弱化其它假設的擴展。相關主題模型[6]和彈球分配機器[24]將同時出現的主題視作相關(例如與地理有關的文檔可能運動相關,但它更可能與化學相關);球狀主題模型[28]允許詞不太可能在主題中出現(例如,“扭傷”顯然不太可能出現有關“貓”的主題裏);稀疏主題模型進一步強化了主題分佈的結構[37];而“稠密”主題模型則是詞數的一個更符合實際的模型[15]。

3.2 結合元數據

在文本分析配置中,文檔通常包含些諸如作者、題目、地理位置、鏈接等其它額外信息。這些信息可以被用於適配主題模型。目前如何結合這些元數據是百家爭鳴。
作者主題模型[29]是較早成功的例子。每個作者擁有一個主題直方圖;多個作者的論文中的詞由其中一個作者的主題直方圖決定。作者主題模型允許從作者或文檔進行推斷。Rosen-Zvi等人在論文中展示利用作者的主題直方圖計算作者間的相似性的例子,而LDA是無法勝任這一工作的。又比如,由於許多文檔集合通常是相互鏈接的(例如科技論文相互引用或者網頁相互鏈接),一些主題模型就考慮將那些鏈接用以估計主題。關係主題模型[13]假設所有文檔都由LDA生成,文檔間的鏈接取決於它們主題直方圖的距離。關係主題模型不僅是新的主題模型,而且是新的網絡模型,其與傳統網絡統計模型不同之處在於,它將用於爲鏈接建模的節點屬性(文檔的詞)考慮在內。
其它結合元數據的主題模型有語言結構模型[10],關注語料庫間的距離的模型[38],命名實體模型[26]。更一般的方法包括狄立克雷多項式迴歸模型[25]和監督主題模型[7]。

3.3 其他類型的數據

在LDA中,主題是詞上的離散分佈,並用於產生文檔中的詞(觀測值)。LDA的一個優勢在於其主題參數和數據生成所用的分佈,它們經過微調就可以適配於其它類型的觀測值所對應的推斷算法。LDA作爲典型的主題模型,可以看作是分組數據的成員混合模型(mixed-membership model),而不只是將一組文檔(觀測值)與一個主題(部件)相關。每組文檔都以不同的比例包含着不同的主題。爲了適配諸如調查數據、用戶偏好、聲頻和音樂、計算機代碼、網絡日誌和社交網絡這些多種多樣的數據,LDA衍生出衆多模型來處理和分析之。下面介紹兩個成員混合模型已取得顯著成功的領域。
在羣體遺傳學中,研究人員也獨立地開發出了相同的概率模型,用以在個體採樣得到的基因中尋找人類祖先(例如,人類從非洲、歐洲或中東等地起源)[27]。基本原理是每個個體的基因型是由一個或多個祖先羣體遺傳的。生物學家們通過與LDA非常相似的模型,描述了在這些人羣中的基因模式(即“主題”),並辨認出單個個體的基因組成(即“主題直方圖”)。這一模型如此有效的原因就在於即使具有“純種”祖先基因的個體不存在,其基因模式依然可以假設,並通過實驗得到。
LDA模型的推斷算法還可用於自然圖像的檢索、分類和組織,因此LDA也被廣泛地應用於計算機視覺中。研究者們已經從圖像到文檔做了一個直接的類比。在文檔分析的假設中,每個文檔包含多個主題,文檔集中的所有文檔共享同一個主題集。在圖像分析的假設中,每副圖像是多個視覺模式的組合,同一個視覺模式在圖像集中不斷重現(預處理階段會分析圖像以得到視覺模式(或者“視覺單詞”)的集合)。主題模型在計算機視覺中被用於圖像分類[16],關聯圖像和字幕[4],建立圖像層次[2,23,31]等。

4 展望

主題模型是機器學習的新興領域,有很多新方向亟待探索。
評價和模型驗證 主題模型的評測和有效性脫節。一般的評價過程如下,首先取一部分語料做爲測試集,然後從剩下的語料中訓練不同的主題模型,並在測試集上度量其近似性(例如概率),最後選擇性能最好的模型。但主題模型通常是用於組織、總結和幫助研究者探索大規模語料,技術上無法保證,準確性越高,組織性就越好或者解釋得就越簡單。主題建模的一個開放課題是與算法使用相匹配的評測方法。那麼如何基於主題的解釋性來比較主題模型呢?這就是模型驗證問題,當面對一個新語料和新問題時,應該如何選擇主題模型呢?哪些建模假設對問題是重要的,哪些是不重要的?該如何試驗衆多已經開發的主題模型呢?這些問題引起了統計學家的興趣[9,30],但他們對機器學習處理的問題的規模認識不足。這些計算問題的新答案將是對主題模型的重要貢獻。
可視化和用戶接口 主題模型另一個充滿希望的未來方向是開發與主題和語料庫交互的新方法。主題模型提供了探索大規模文本的新結構,那麼如何使用這一結構呢?一個問題就是如何展示主題。主題一般通過列舉其最常出現的詞來展示(如圖2),但選擇不同的詞展示或者以不同的方式來標記主題,可能會更有效。更進一步,如何更好地展示一個文檔中的主題模型呢?從文檔上來看,主題模型提供了文檔結構的潛在的有用信息。結合有效的主題標記,讀者可以辨認出文檔中最感興趣的部分。此外,隱藏的主題直方圖隱式地將各個文檔相互連接(考慮文檔直方圖的距離)。如何顯示這些連接?整個語料與其推斷的主題結構的有效接口是什麼?
這些用戶接口問題對主題建模非常重要。主題建模算法很有希望提示大規模文檔的有意義的主題結構,但要讓它有用需要在信息可視化和用戶接口上多下工夫。
用主題模型進行數據發現 主題模型伴隨着信息工程應用而來,主題模型作爲統計模型應該能提供關於數據的信息或者幫助建立假設。主題模型的後驗分佈提供了什麼信息?這一問題已經出現在政治科學[19]、生物學[17]和心理學[32]等領域,這類研究使用主題模型來度量所關注的外部變量,是非監督學習中的難題,必須小心驗證。
這個問題通常可由計算機科學家與其它領域的學者合作使用主題模型來助力數據的探索、可視化和抽象假設。除了遺傳學和神經學等科學應用系統,主題模型還可以應用於歷史、社會、語言、政治學、法律學和比較文學等其它以文本作爲研究媒介的領域。通過與各學科的學者進行合作,計算機科學家們開始開發出新的跨學科的計算方法,來處理大量的文本,並從中提取潛在內涵。

5 總結

本文調研了處理大規模文檔的一套統計模型——概率主題模型。近年來,隨着可擴展部件建模、後驗推斷的可擴展算法和大數據集的日益增多等非監督機器學習的有力支持,主題模型有希望成爲總結和理解人們日益增長的數字化信息檔案的重要部件。

參考文獻

[1]Asuncion, M. Welling, P. Smyth, and Y. Teh. On smoothing and inference for topic models. In Uncertainty in Artificial Intelligence, 2009.
[2]E. Bart, M. Welling, and P. Perona. Unsupervised organization of image collections: Unsupervised organization of image collections: Taxonomies and beyond. Transactions on Pattern Recognition and Machine Intelligence, 2010.
[3] D. Blei, T. Griffths, and M. Jordan. The nested Chinese restaurant process and Bayesian nonparametric inference of topic hierarchies. Journal of the ACM, 57(2):1–30, 2010.
[4] D. Blei and M. Jordan. Modeling annotated data. In Proceedings of the 26th annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 127–134. ACM Press, 2003.
[5] D. Blei and J. Lafferty. Dynamic topic models. In International Conference on Machine Learning, pages 113–120, New York, NY, USA, 2006. ACM.
[6] D. Blei and J. Lafferty. A correlated topic model of Science. Annals of Applied Statistics, 1(1):17–35, 2007.
[7] D. Blei and J. McAuliffe. Supervised topic models. In Neural Information Processing Systems, 2007.
[8] D. Blei, A. Ng, and M. Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research, 3:993–1022, January 2003.
[9] G. Box. Sampling and Bayes’ inference in scientific modeling and robustness. Journal of the Royal Statistical Society, Series A, 143(4):383–430, 1980.
[10] J. Boyd-Graber and D. Blei. Syntactic topic models. In Neural Information Processing Systems, 2009.
[11] W. Buntine. Variational extentions to EM and multinomial PCA. In European Conference on Machine Learning, 2002.
[12] W. Buntine and A. Jakulin. Discrete component analysis. In Subspace, Latent Structure and Feature Selection. Springer, 2006.
[13] J. Chang and D. Blei. Hierarchical relational models for document networks. Annals of Applied Statistics, 4(1), 2010.
[14] S. Deerwester, S. Dumais, T. Landauer, G. Furnas, and R. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6):391–407, 1990.
[15] G. Doyle and C. Elkan. Accounting for burstiness in topic models. In International Conference on Machine Learning, pages 281–288. ACM, 2009.
[16] L. Fei-Fei and P. Perona. A Bayesian hierarchical model for learning natural scene categories. IEEE Computer Vision and Pattern Recognition, pages 524–531, 2005.
[17] S. Gerrish and D. Blei. A language-based approach to measuring scholarly impact. In International Conference on Machine Learning, 2010.
[18] T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum. Integrating topics and syntax. In L. K. Saul, Y. Weiss, and L. Bottou, editors, Advances in Neural Information Processing Systems 17, pages 537–544, Cambridge, MA, 2005. MIT Press.
[19] J. Grimmer. A Bayesian hierarchical topic model for political texts: Measuring expressed agendas in senate press releases. Political Analysis, 18(1):1, 2010.
[20] M. Hoffman, D. Blei, and F. Bach. On-line learning for latent Dirichlet allocation. In Neural Information Processing Systems, 2010.
[21] T. Hofmann. Probabilistic latent semantic analysis. In Uncertainty in Artificial Intelli-gence (UAI), 1999.
[22] M. Jordan, Z. Ghahramani, T. Jaakkola, and L. Saul. Introduction to variational methods for graphical models. Machine Learning, 37:183–233, 1999.
[23] J. Li, C. Wang, Y. Lim, D. Blei, and L. Fei-Fei. Building and using a semantivisual image hierarchy. In Computer Vision and Pattern Recognition, 2010.
[24] W. Li and A. McCallum. Pachinko allocation: DAG-structured mixture models of topic correlations. In International Conference on Machine Learning, pages 577–584, 2006.
[25] D. Mimno and A. McCallum. Topic models conditioned on arbitrary features with Dirichlet-multinomial regression. In Uncertainty in Artificial Intelligence, 2008.
[26] D. Newman, C. Chemudugunta, and P. Smyth. Statistical entity-topic models. In Knowledge Discovery and Data Mining, 2006.
[27] J. Pritchard, M. Stephens, and P. Donnelly. Inference of population structure using multilocus genotype data. Genetics, 155:945–959, June 2000.
[28] J. Reisinger, A. Waters, B. Silverthorn, and R. Mooney. Spherical topic models. In International Conference on Machine Learning, 2010.
[29] M. Rosen-Zvi, T. Griffths, M. Steyvers, and P. Smith. The author-topic model for authors and documents. In Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence, pages 487–494. AUAI Press, 2004.
[30] D. Rubin. Bayesianly justifiable and relevant frequency calculations for the applied statistician. The Annals of Statistics, 12(4):1151–1172, 1984.
[31] J. Sivic, B. Russell, A. Zisserman, W. Freeman, and A. Efros. Unsupervised discovery of visual object class hierarchies. In Conference on Computer Vision and Pattern Recognition, 2008.
[32] R. Socher, S. Gershman, A. Perotte, P. Sederberg, D. Blei, and K. Norman. A Bayesian analysis of dynamics in free recall. In Neural Information Processing Systems, 2009.
[33] M. Steyvers and T. Griffths. Probabilistic topic models. In T. Landauer, D. McNamara, S. Dennis, and W. Kintsch, editors, Latent Semantic Analysis: A Road to Meaning. Laurence Erlbaum, 2006.
[34] Y. Teh, M. Jordan, M. Beal, and D. Blei. Hierarchical Dirichlet processes. Journal of the American Statistical Association, 101(476):1566–1581, 2006.
[35] M. Wainwright and M. Jordan. Graphical models, exponential families, and variational inference. Foundations and Trends in Machine Learning, 1(1–2):1–305, 2008.
[36] H. Wallach. Topic modeling: Beyond bag of words. In Proceedings of the 23rd International Conference on Machine Learning, 2006.
[37] C. Wang and D. Blei. Decoupling sparsity and smoothness in the discrete hierarchical dirichlet process. In Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, and A. Culotta, editors, Advances in Neural Information Processing Systems 22, pages 1982–1989. 2009.
[38] C. Wang, B. Thiesson, C. Meek, and D. Blei. Markov topic models. In Artificial Intelligence and Statistics, 2009.




發佈了15 篇原創文章 · 獲贊 7 · 訪問量 6萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章