NLPIR-KGB知識圖譜引擎突破傳統數據挖掘束縛

  在當今信息爆炸的時代,伴隨着社會事件和自然活動的大量產生(數據的海量增長),人類正面臨着“被信息所淹沒,但卻飢渴於知識”的困境。隨着計算機軟硬件技術的快速發展、企業信息化水平的不斷提高和數據庫技術的日臻完善,人類積累的數據量正以指數方式增長 。面對海量的、雜亂無序的數據,人們迫切需要一種將傳統的數據分析方法與處理海量數據的複雜算法有機結合的技術。
  數據的廣泛存在性使得數據越來越多地散佈於不同的數據管理系統中,爲了便於進行數據分析需要進行數據的集成.數據集成看起來並不是一個新的問題,但是大數據時代的數據集成卻有了新的需求,因此也面臨着新的挑戰. 
  1) 廣泛的異構性.傳統的數據集成中也會面對數據異構的問題,但是在大數據時代這種異構性出現了新的變化.主要體現在:①數據類型從以結構化數據爲主轉向結構化、半結構化、非結構化三者的融合.②數據產生方式的多樣性帶來的數據源變化.傳統的電子數據主要產生於服務器或者是個人電腦,這些設備位置相對固定.隨着移動終端的快速發展,手機、平板電腦、UPS等產生的數據量呈現爆炸式增長,且產生的數據帶有很明顯的時空特性.③數據存儲方式的變化.傳統數據主要存儲在關係數據庫中,但越來越多的數據開始採用新的數據存儲方式來應對數據爆炸.這就必然要求在集成的過程中進行數據轉換,而這種轉換的過程是非常複雜和難以管理的.
  2)數據質量.數據量大不一定就代表信息量或者數據價值的增大,相反很多時候意味着信息垃圾的泛濫.一方面很難有單個系統能夠容納下從不同數據源集成的海量數據;另一方面如果在集成的過程中僅僅簡單地將所有數據聚集在一起而不作任何數據清洗,會使得過多的無用數據干擾後續的數據分析過程.大數據時代數據清洗過程必須更加謹慎,因爲相對細微的有用信息混雜在龐大的數據量中.如果信息清洗的粒度過細,很容易將有用的信息過濾掉.清洗粒度過粗又無法達到真正的清洗效果,因此在質與量之間需要進行仔細的考量和權衡.
  北京理工大學大數據搜索與挖掘實驗室張華平主任研發的NLPIR大數據語義智能分析技術是對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺平臺是根據中文數據挖掘的綜合需求,融合了網絡精準採集、自然語言理解、文本挖掘和語義搜索的研究成果,並針對互聯網內容處理的全技術鏈條的共享開發平臺。
  其中KGB(Knowledge Graph Builder)知識圖譜引擎是我們自主研發的知識圖譜構建與推理引擎,基於漢語詞法分析的基礎上,採用KGB語法實現了實時高效的知識生成,可以從非結構化文本中抽取各類知識,並實現了從表格中抽取指定的內容等。KGB同時可以定義不同的動作,如抽取動作,並能自定義各類後處理程序。利用KGB知識圖譜引擎可以抽取到產品的詳細報價信息,方便進行下一步的數據挖掘與圖譜構建。
  大數據挖掘技術是一個充滿希望的研究領域,商業利益的強大驅動力將會不停地促進它的發展。每年都有新的數據挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。對海量文本信息進行有效的數據挖掘已經是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機器學習等諸多應用領域基礎且關鍵的研究問題,它影響着上層信息服務與信息共享的質量和水平。NLPIR大數據語義智能技術將對中文數據挖掘技術進行深入研究,必將提供出高質量、多功能的中文數據挖掘算法並促進自然語言理解系統的廣泛應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章