1.網頁數據解析
(1)可以參看webkit內核,構建一個網頁解析工具,解析dom樹/視覺樹/分塊樹,根據需求解析目標數據;
(2)構建xpath類規則,提取指定目標數據;
(3)解析microdata數據,可以參考pps/babytree,裏面的itemscope/itemprop系列標籤
2.數據來源
(1)百度百科/維基百科等知識詞條類
(2)豆瓣類垂直站點
(3)其它類別的站點
3.構建
(1)實體:可以使用百科詞條/維基百科的詞條作爲一個實體,裏面能夠包含實體屬性,如果有圖片可以直接配圖
(2)關係:可以挖掘標籤,如類型電視劇,作爲某一個電視劇實體的上位關係,挖掘類型電視劇下面的所有電視劇實體,這可以作爲一種方法。還可以從垂直站點挖掘,另外,可以考慮mypos數據,kv數據等。實體和關係都以七元組的方式存入知識庫中。
(3)算法:有了實體和關係,用戶輸入一個query,對query變換,分析用戶意圖之後,檢索出和query相似度比較高的實體和關係,拉取匹配度高的【關係,下位實體1,下位實體2,…】列表,通過相似度/query點展預測/用戶意圖等一系列特徵判斷,給出topN的推薦,可以以星狀圖展現,也可以以檢索列表展現等。