網頁數據構建知識圖譜-數據和方法

1.網頁數據解析
(1)可以參看webkit內核,構建一個網頁解析工具,解析dom樹/視覺樹/分塊樹,根據需求解析目標數據;
(2)構建xpath類規則,提取指定目標數據;
(3)解析microdata數據,可以參考pps/babytree,裏面的itemscope/itemprop系列標籤

2.數據來源
(1)百度百科/維基百科等知識詞條類
(2)豆瓣類垂直站點
(3)其它類別的站點

3.構建
(1)實體:可以使用百科詞條/維基百科的詞條作爲一個實體,裏面能夠包含實體屬性,如果有圖片可以直接配圖
(2)關係:可以挖掘標籤,如類型電視劇,作爲某一個電視劇實體的上位關係,挖掘類型電視劇下面的所有電視劇實體,這可以作爲一種方法。還可以從垂直站點挖掘,另外,可以考慮mypos數據,kv數據等。實體和關係都以七元組的方式存入知識庫中。
(3)算法:有了實體和關係,用戶輸入一個query,對query變換,分析用戶意圖之後,檢索出和query相似度比較高的實體和關係,拉取匹配度高的【關係,下位實體1,下位實體2,…】列表,通過相似度/query點展預測/用戶意圖等一系列特徵判斷,給出topN的推薦,可以以星狀圖展現,也可以以檢索列表展現等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章