1、一些背景
1.1 文本可視化簡介
文本可視化技術綜合了文本分析、數據挖掘、數據可視化、計算機圖形學、人機交互、認知科學等學科的理論和方法,爲人們理解複雜的文本內容、結構和內在的規律等信息的有效手段。
1.2文本可視化作用和重要性
問題
海量信息使人們處理和理解的難度日益增大,傳統的文本分析技術提取的信息仍然無法滿足人們利用瀏覽及篩選等方式對其進行合理的分析理解和應用。
作用
將文本中複雜的或者難以通過文字表達的內容和規律以視覺符號的形式表達出來,同時向人們提供與視覺信息進行快速交互的功能,使人們能夠利用與生俱來的視覺感知的並行化處理能力快速獲取大數據中所蘊含的的關鍵信息。
重要性
文本可視化涵蓋了信息收集、數據預處理、知識表示、視覺呈現和交互等過程。
其中,數據挖掘和自然語言處理等技術充分發揮計算機的自動處理能力,將無結構的文本信息自動轉換爲可視的有結構信息。
而可視化呈現使人類視覺認知、關聯、推理的能力得到充分的發揮。
因此,文本可視化有效的結合後了機器智能和人工智能,爲人們更好的理解文本和發現知識聽過了新的有效途徑。
2文本可視化的基本框架:
2.1文本分析
文本可視化依賴於自然語言處理,因此詞袋模型、命名實體識別、關鍵詞抽取、主題分析、情感分析等是較常用的文本分析技術。
文本分析的過程主要包括
(1)特徵提取,通過分詞、抽取、歸一化等操作提取出文本詞彙及的內容;
(2)利用特徵構建向量空間模型(vector space model,VSM)並進行降維,以便將其呈現在低維空間,或者利用主題模型處理特徵;
(3)最終以靈活有效的形式表示這些過程處理過的數據,以便進行可視化呈現和交互。
2.2可視化對象類型
(1)信息圖
文本內容的視覺編碼主要涉及尺寸、顏色、形狀、方位、文理等;文本間關係的視覺編碼主要涉及網絡圖、維恩圖、樹狀圖、座標軸等。
文本可視化的一個重要任務
選擇合適的視覺編碼呈現文本信息的各種特徵:例如詞頻通常由字體的大小表示,不同的命名實體類別用顏色加以區分。
(2)交互
便於用戶能夠通過可視化有效地發現文本信息的特徵和規律,通常會根據使用的場景爲系統設置一定程度的交互功能。
交互方式類型:
高亮(highlighting)、縮放(zooming)、動態轉換(animated transitions)、關聯更新(brushing and linking)、焦點加上下文(focus+context)等。
3文本可視化典型的方法和方案
3.1方案一、文本內容
如何快速獲取文本內容的重點,快速理解文本的大體內容
方法一、基於詞頻的可視化
思路:將文本看成詞彙的集合(詞袋模型),用詞頻表現文本特徵
計算方法:TFIDF
可視化形式:標籤雲(tag cloud)
標籤雲將關鍵詞按照一定的順序和規律排列,如頻度遞減、字母順序等,並以文字的大小代表詞語的重要性。
應用:廣泛用於與報紙、雜誌等傳統媒體和互聯網,甚至T恤等實物中。
類型:
(1)一行一行水平排列
(2)詞語佈局遵循嚴格的條件,文字間的空隙得以充分利用
:
(3)文字輪廓
:
(4)上下文信息卡
DocumentCard
方法二、基於詞彙分佈的可視化
思路:反映詞頻在文本中的命中位置
計算方法:詞彙做索引
可視化形式:TitleBars
應用:查詢任務中快速瞭解文本內容與查詢意圖的相關度
3.2方案二、文本關係
理解文本內容和發現規律
方法一、文本內在關係
思路:反映文本內在結構和語義關係
可視化形式:
(1)網絡圖
應用:呈現命名實體在同一文本的同現關係
(2)後綴樹(suffix tree)
應用:查詢詞的上下文關係
Word Tree:
NETAPANK:用此方法
應用:展現文本集中常見上下文關係,幫助寫作時選用詞彙
(3)鏈路圖
:
應用:呈現文本中命名實體的從屬關係、並列關係等。
(4)徑向空間填充:
FanLens
應用:呈現命名實體的層次關係
DocuBurst
應用:呈現詞語在Wordnet中的上下位關係,及詞頻
方法二、文本外在關係
思路:反映文本間的引用關係、網頁的超鏈關係等直接關係以及主題相似性等潛在關係(一般基於聚類算法用來呈現主題分佈,並展示與特定主題相關的關鍵詞,主要應用於信息檢索、主題檢測、話題演變等方面)
可視化形式:
(1)網絡圖
應用:對文本集的引用關係
網絡節點代表文本,有向線代表引用關係
(2)
應用:展現文獻共引關係,便於領域研究
比CiteSpace這種傳統網絡圖可視化方案呈現文獻更爲細緻的信息
(3)標籤雲改造
呈現由jaccard係數計算出的聚類結果,同行同主題,相鄰行主題相似
插播:
文本主題分析除了基於統計的方法之外還有基於特徵降維的方法
(1)高維SVM表示文本
(2)投影將高維特徵向量投影到2D,3D能表示的維數
降維方式:
a、基於奇異值分解(singular value decomposition,SVD)的潛在語義索引(latent semantic indexing,LSI)
b、主成分分析(principal component analysis,PCA)
c、對應分析(correspondence analysis,CA)
d、多維尺度分析(multidimensional scaling,MDS)
e、基於人工神經網絡的自組織映射圖網絡(self-organizating map,SOM)
特徵降維的可視化:
(1)
(2)標籤雲
ProjCloud:
用k-means算法聚類,用標籤雲展示相似文本和此類關鍵詞集合
(3)嵌套長方形(分層次可視化)
解決降維過程信息丟失,帶來的可視化缺乏擴展性
長方形的方向表示層次的變化,大小表示重要程度,圖形複雜,文本標籤缺乏可讀性
展示新聞文本
Map of the Market
展示股票市場的概覽
ThemeCrowds
與標籤雲結合展示主題的層次關係及主題關鍵詞
(4)力導向圖(force-directed placement,FDP)
InfoSky
生成層次聚類樹聚類信息的分層級展示
3.3方案三、多層面信息
結合信息的多個方面幫助用戶更深層的理解文本數據發現其中的規律,特別是包含時間關係的文本
方法一、時間與其他信息結合的可視化
思路:時間信息提供文本內容變化、數據規律的信息
可視化形式:
(1)引入時間軸,信息按時間順序排列
(2)標籤雲與時間結合
a、詞語下引入折線圖,表示詞語使用頻度的變化
SparkCloud:
b、標籤雲上標上不同顏色和圖形
c、時間折線圖,時間點標籤雲,折線圖上值越大表示此時刻的標籤雲標籤越多
(3)疊式圖(stacked graph)
每層代表一個事物,以顏色區分,粗細代表頻度
a、ThemeRiver
做了平滑和堆疊處理
MemTracker
b、ThemeRiver擴展
NewsRiver,VisualBackchannel
跟蹤博客,微博,twitter的變化
TIARA結合標籤雲
通過主題分析技術(Latent Dirichlet allocation,LDA)抽取文本主題融入ThemeRiver,並在每層上顯示關鍵詞
c、Tag River
河流結合標籤雲
d、TextFlow
河流+主題的產生,分流合併
e、EventRiver
f、History Flow
文檔內容隨時間變化
(3)、螺旋圖
文本信息的週期性變化
多層次螺旋圖還可以對比不同數據集
(4)、動態呈現包含時間的數據
TwitterScope
地圖形式呈現twitter內容,並以顏色區分不同主題,內容會隨着時間動態消失、融合
Streamit
以動畫的形式從左到右實時地呈現文本的聚合和分化
(5)結合時間空間信息
信息在監測Twitter上的突發事件並顯示在地圖上
信息在twitter上的傳播過程和規律
Whisper:
以顏色表示心情,顯示情緒的變化
方法二、其他多層信息的可視化
(1)parallel Tag Cloud
結合標籤雲和常用於多維數據展示的平行座標軸
(2)FacetAtlas
兩種糖尿病,紅色表示相似併發症,綠色表示相似症狀
(3)Jigsaw、FeatureLens、ASE
通過協同展示多個視角
4、總結
(1)常見文本分析技術及可視化方式
(2)
5、評價
(1)可用性測試(usability testing):用戶使用反饋,指導設計
(2)可用性檢查(usability inspection):專家檢查,測試技術細節
(3)個案研究(case study):應用場景得到研究結論
(4)對比測試:對比主客觀數據
參考:唐家渝, 劉知遠, 孫茂松. 文本可視化研究綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 273-285.
思考:總結的比較全面、系統。畢設的綜述可視化部分就靠它了