智能問答系統一些思考——四類方法

智能問答系統是現代信息技術系統不可或缺的一個部分,然因問答系統的複雜性,智能問答系統一直未能取得很好的作用。本文將嘗試從問答系統的四個方向做概要性總結。問答系統目前實現的方式主要包括:

1)知識圖譜問答:基於語義的方法、基於答案排序的方法

2)表格問答:表格檢索、答案生成

3)文本問答:答案句子選擇、答案生成

4)社區問答:問題匹配、問題改寫、問題自動生成

基於語義的知識圖譜問答

思路是,A.通過對問題的轉化爲機器能理解之行的語義表示,B.使用該語義表示作爲結構化查詢語句查詢知識圖譜,將查詢得到的實體結合作爲答案返回。

語義表示:

A.一階謂語邏輯:一階謂詞邏輯只允許限量詞(正則表示)應用在對象,高階謂詞邏輯允許將限量詞用在謂詞和函數

B.lambda-算子:陳述句的語義可以採用一階謂詞邏輯表示,問句的語義則常採用lambda-算子形式

C.lambda-DCS:一階謂語邏輯和lambda-算子爲考慮知識圖譜特性,lambda-DCS考慮知識圖譜特性(忽略了全部未知變量)

基於語義分析的方法:
1、基於文法的語義分析方法

A.從帶有語義表示的標註數據中抽取符合特定文法的語義分析規則集合。每條規則至少包含自然語言和語義表示兩部分

B.採用基於動態規劃的解析算法(CYK、Shift-Reduce)產生句子對應語義表示候選集

C.基於標註數據訓練排序模型,對不同語義表示候選進行打分,返回得分最高語義表示候選作爲結果

基於神經網絡的語義分析方法:

採用類似機器翻譯的,序列到序列的生成模型(從自然語言到語義表示轉化)

基於答案排序的方法

給定輸入問題Q和知識圖譜KB,通過對KB中實體進行打分和排序,選擇得分最高的實體或實體集合作爲答案輸出。

A.問題實體識別,對問題Q中提到的實體識別

B.答案候選檢索,根據識別出的問題實體,從知識圖譜中查找與之滿足特點約束條件的知識庫實體集合,作爲候選答案

C.答案候選表示,每個答案無法直接與問題比較,基於答案候選所在知識圖譜上下文生成對應向量表示,問題和答案相關度計算轉爲問題向量和候選向量計算。

D.答案候選排序,使用排序模型對不同答案候選打分排序,返回得分最高的答案候選集作爲輸出結果

基於特徵的答案排序——答案實體識別後,根據問題實體在知識圖譜中位置,抽取與之通過不超過兩個謂詞連接的實體作爲答案候選集合,然後使用一個特徵向量表示每個候選答案(疑問詞特徵、問題實體特徵、問題類型、問題動詞、上下文、謂詞特徵)

基於問題生成的大啊排序——問題實體識別和答案候選檢索後,採用文本生成技術爲每一個答案生成一個自然語言問題,作爲該答案候選對應的表示,計算輸入問題和每個答案候選對應生成問題相似度,對答案打分排序。

基於子圖匹配的答案排序——每個答案候選從知識庫中抽取一個子圖,通過計算輸入問題和每個答案候選對應子圖之間的相似度,對答案候選集合進行打分和排序。

表格問答

表格檢索:

A.表格全集的數目相對有限,可以將每個表格的結構打散並將內容順序連接構成一個“文檔”,然後基於現有文本檢索技術找到與輸入問題Q最相關的表格子集T。

B.表格全集很大,需要藉助現有搜索引擎找到與問題最相關的結構網頁集合,抽取該結果網頁集合中包含的全部表格作爲表格子集

答案生成:

A.基於答案排序的方法,通過對不同表格單元進行打分和排序,選擇得分最高表格單元集合作爲答案

B.基於語義分析方法,基於表格T生成問題Q對應的語義表示,然後以該語義表示作爲結構話查詢語句,通過在T上執行得到Q對應答案

C.基於神經網絡,訓練端到端的神經網絡模型,直接生成問題對應的答案

文本問答

問題處理模塊:對輸入的自然語言問題進行基本自然語言處理操作(分詞、命名實體識別、詞性標註依存樹分析)並輸出一系列特定問題語義標籤(問題類型、問題關鍵詞、答案類型等)。問題類型——事實類、是非類、定義類、列表類、比較類、意見類、指導類;問題關鍵詞涉及問題實體和對答案限制條件;答案類型——人物、時間、地點等。

文本檢索模塊:從海量文本集合中檢索出與輸入問題最相關的文本候選

答案生成模塊:從檢索回來的文本候選中抽取或生成答案,給定問題Q和答案D,從D中找到對應的答案A。答案A可以是D中的句子,也可以是D中的單詞或短語,還可以是基於D推理出的內容。可以分爲答案句子選擇和閱讀理解,答案句子選擇是從候選文本D中選取其中一個句子S作爲答案,閱讀理解,從文本中選擇特定問題片段作爲問題答案。

社區問答

問題-問題匹配:計算輸入問題Q與D中某個已有問題Q之間的語義相似度。

問題-答案匹配:計算輸入問題Q和D中某個歷史答案A之間的問答相關度。

問題改寫:輸入問題生成語義相同但表述方式不同的複述形式。
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章