VAiRoma:一個有關分析理解羅馬歷史中的地點時間和事件的可視化分析工具
綜述
本文主要介紹了作者製作的一個基於web的可視化工具VAiRoma
編程工具:PHP, js, arcgis.com, d3.com
數據來源:維基百科關於(Rome,Roma,Roman等)的 189000篇純文本數據
功能模塊:時間圖,主題圖,地點圖,用戶自定義便籤
(圖一)
1.數據處理:
1)關鍵詞過濾:
(包括:Rome,Roma,Roman,City of Roman Empire and Italian State encompass)
結果爲189000篇純文本數據
2)主題模型建立:
一共提取了40個主題,爲了節省空間用Topic Rose Tree展示,
提取位置信息使用了Stanford NER(Named Entity Recognizer)
缺點沒有驗證的標準,爲了幫助驗證增加了6個便籤,標記地點,後面也可以作爲主題來過濾篩選,如下:
3)位置提取並在地圖上標記
利用GeoNames' REST Web Services來定位,選擇排名第一的選項
人工糾正不正確的標記
4)日期提取
使用Stanford NER和正則表達式,對於模棱兩可的時間比如說16實際早期,就精確到某一年,
因爲要在時間軸上定義,所以缺點時間不一定精確
5)聯繫時間和地點
作者說歷史類的文章會按照事件的發生順序來寫,所以在一段中出現一個地點和一個時間,那就把他們關聯起來。
另一個段落的時間和地點另外關聯,然後統計這些地點出現的頻率。
數據預處理的整體步驟描述:
二.用戶界面
時間視圖:範圍從2000BC-2010AD,用戶可以通過拖拽時間範圍過濾主題,地點等信息。
地點視圖:利用ArcGIS製作了三個圖層,hotheat map ,point map,pin map,用戶點擊的時候會顯示相關這個地點文章
主題視圖:利用圓圈展示了25個主要主題在圈內,用顏色深度來表示重要程度
tabular視圖如下:
這個視圖是按照主題來展示的,排序是按照權重,有關時間位置和主題的關鍵詞會用不同的顏色標記出來
VAiRoma的作用
1.可以選擇時間範圍來觀察,地點,主題的變化,用戶想查看相關信息的話可以點擊圖一中左邊的列表框選擇相關的主題或者位置查看相關的文章。
2.多種過濾方式,基於時間,地點,主題。
3.通過位置信息查找文章。
4.劃定區域選擇文章,瞭解事件,區域爲3米的圓內
5.比較兩個時間段內的變化
6.用戶自定義標籤在地圖上標記,自己的見解,模版爲:where when who what why
本文技術缺點:
1) 截取的位置信息和時間無法保證準確
2)信息不夠學術性
3)故事手法簡單