兩套KBQA系統

基於BERT的知識庫問答系統

簡介

知識庫問答可以主要分爲兩個模塊,問題實體識別模塊和屬性匹配模塊,系統整體流程圖如下:
在這裏插入圖片描述

數據

此次使用的數據集來自NLPCC ICCPOL 2016 KBQA 任務集,其包含 14 609 個問答對的訓練集和包含 9 870 個問答對的測試集。 並提供一個知識庫,包含 6 502 738 個實體、 587 875 個屬性以及 43 063 796 個 三元組。知識庫文件中每行存儲一個事實( fact) ,即三元組 ( 實體、屬性、屬性值) 。

知識庫樣例如下,共有43063796行:

image

訓練NER的數據格式如下:

在這裏插入圖片描述
訓練BERT二分類的數據如下:

在這裏插入圖片描述

運行效果:

  1. 精確查找可找到且屬性包含在問句中:
    在這裏插入圖片描述

  2. 需要模糊查找且需要進行屬性匹配:
    在這裏插入圖片描述
    在這裏插入圖片描述

問題

最主要的問題就是進行模糊搜索時速度過慢,且對於問題的要求很高,只能提問xx的xx是什麼這一種問題。

基於醫療知識圖譜的自動問答

簡介

立足醫藥領域,以垂直型醫藥網站爲數據來源,以疾病爲核心,構建起一個包含7類規模爲4.4萬的知識實體,11類規模約30萬實體關係的知識圖譜。 並構建了一個基於醫藥知識圖譜的問答系統。
整體框架如下:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-I6gCEOFF-1571281119622)(C:/Users/zhang/Desktop/QA圖片/neo4j流程.jpg)]

數據來源

項目的數據來自尋醫問藥網站,爬取的結構化數據,構建了以疾病爲中心的醫療知識圖譜,項目的數據存儲採用Neo4j圖數據庫,問答系統採用了規則匹配方式完成,數據操作採用neo4j聲明的cypher。
image

知識庫內容

1.實體類型

image

2.實體關係類型

image

3.屬性類型

image

支持的問題類型

image

運行效果

在這裏插入圖片描述

總結

基於規則的問答系統沒有複雜的算法,一般採用模板匹配的方式尋找匹配度最高的答案,回答結果依賴於問句類型、模板語料庫的覆蓋全面性,面對已知的問題,可以給出合適的答案,對於模板匹配不到的問題或問句類型,就無能爲力了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章