問答QA（一）綜述

聲明：本文是綜合網上問答系統介紹，做的總結，如有侵權，請聯繫處理，謝謝。

一、問答系統架構

1.1、問題分析模塊

負責對用戶的提問進行處理；生成查詢關鍵詞（提問關鍵詞，擴展關鍵詞，...）；確定提問答案類型（PER, LOC, ORG, TIM, NUM, ...）以及提問的句法、命名實體、語義表示等等。

1.2、問題回答模塊

依據不同的數據類型，進行不同方式的信息檢索：

1.3、答案抽取模塊

從檢索模塊檢索出的相關段落、或句羣、或句子中抽取出和提問答案類型一致的實體，根據某種原則對候選答案進行打分，把概率最大的候選答案返回給用戶。

對不同類型的問題，往往有不同的處理方法，所以一般都有問題分類這個過程。

針對於不同類型的問題制定相應的答案抽取規則，以便在答案抽取階段應用這些規則來抽取問題的答案。比如對於詢問地點的問題，我們就可以規定，答案中必須含有位置信息。

人工方式對一批問題的類別進行標註
設計機器學習算法，已標註的這個集合進行分類模型的自動訓練
訓練得到的模型對測試問題進行自動分類

eg: 比如通過統計，“什麼顏色”這幾個詞經常出現在問題中，那我們就可以把“什麼顏色”當作一個疑問短語。然後凡是含有“什麼顏色”這個短語的問題都當作一類問題。

2.1、信息抽取

方法描述：從問句中提取關鍵詞語，用信息檢索的方法找出包含候選答案的段落或句子，然後基於問答類型用信息抽取的方法在這些段落和句子中找出答案

2.2、模式匹配

基本思想：對於某些提問類型（某人的出生日期、原名、別稱等），問句和包含答案的句子之間存在一定的答案模式，該方法在信息檢索的基礎上根據這種模式找出答案。因此如何自動獲取某些類型提問的儘可能多的答案模式是其中的關鍵技術

例如，詢問“某人生日年月日”類提問的部分答案模式如下：

2.3、KBQA

揭開知識庫問答KB-QA的面紗1·簡介篇 https://zhuanlan.zhihu.com/p/25735572

2.4、綜合對比

一般搜索引擎返回的是一堆網頁，而問答系統需要返回的是簡短的答案。這樣，通過信息檢索模塊搜索出來的相關文檔就要提交給答案抽取模塊來提煉答案。答案可以是一句話，或者是幾句話，也可以是幾個詞或者短語。對於那些問時間地點的問題，就可以用很短的語句來回答，而對於詢問原因、事件的問題就需要較長的語句才能回答。比如對於問題“9.11事件的是怎麼回事？”就不可能用一句話就能回答的。所以答案的抽取還需要依據問題的類型。
境通過提供管理後臺，讓用戶建立自己的業務場景，並在場景中建立上下文會話，而會話則由實體、意圖和生成模板構成。在新的問題中，如果語法錯誤，比如缺少實體和目標屬性，那麼需要根據上下文回溯到之前提到的實體和屬性，如果上下文中還是缺少這些內容，則需要用追問的方式讓用戶補充回答以填充（slot-filling）
最後是用戶行爲反饋，就是怎麼樣根據用戶的結果去指導我們去做更好對話模型的理解。

4.1、基於模板問答