最近讀了兩篇關於問題答案聯合建模的論文，讀書筆記如下：

1 A Constituent-Centric Neural Architecture for Reading Comprehension

0 摘要：

0.1應用領域：

閱讀理解（Reading comprehension RC）旨在理解自然語言並回答其中的問題，這是一項具有挑戰性的任務。在本文中，我們研究斯坦福問題答疑數據集（SQUAD）中的RC問題。

0.2模型

從訓練集觀察，大多數正確的答案都集中在句子解析樹（parse tree）中的組成成分（constituents）上，

我們設計了一個成分爲中心（constituent-centric）的神經網絡架構，其中候選答案（candidate answers）的生成和他們的表示學習（representation learning）都是基於解析樹的組成部分（constituents）來生成，並由句子語法解析樹指導（guided）。

好處：在這種架構下，候選答案的搜索空間可以大大減少，並且可以很好地捕獲成分之間的句法（syntactic），層次（hierarchical）和組合結構（compositional structure），這有助於更好地表達候選答案。

1 引言

1.1 任務

閱讀理解（RC）旨在通過理解文本來回答問題，這是自然語言處理中的一項很火熱的研究領域。在本文中，我們是解決SQUAD QA任務（圖1顯示了一個例子），這個數據集的特點如下：

（1）大規模：107,785個問題，23,215個段落;

（2）非合成：由衆包工作者提出問題;

（3）候選答案的大量搜索空間（對模型能力很高要求）。例子如下：

我們研究兩個主要問題：（1）如何生成候選答案？（2）如何有效地代表（represent）候選答案？

與給出少量答案選項的多選QA 和填空式QA不同，SQUAD中的答案可以是文本中的任意跨度(any span)，從而產生一個大小爲O（n 2）的大搜索空間，其中n是句子中單詞的數量。這會產生大量的噪音，模糊性和不確定性，使得挑選正確答案非常困難。
represent答案首先，需要捕捉跨越多個句子的遠程語義。即，回答問題需要多重推理。例如，在圖1中，段落中的最後兩句是解答第三個問題所必需的。其次，局部句法結構需要納入表徵學習。的研究表明，實驗表明，句法特徵是影響表現的主要因素。

1.2 解決辦法

爲了解決第一個問題：研究表明，人類回答問題時，給出的正確答案不是任意的跨度，而是以句法分析樹中的成分爲中心。我們根據成分產生候選答案，這大大減少了搜索空間。
爲了解決第二個問題（句法特徵的表示學習）：我們首先使用鏈式樹(chain-of-trees)LSTM 和樹引導的注意機制(tree-guided attention mechanism)對各個成分進行編碼，然後將這些編碼生成組成序列的表示。

2模型

2.1 模型的總架構：

模型的輸入是passage和question，輸出是大部分適合於回答這個問題的段落中的答案。

我們設計了一個以成分爲中心的神經網絡(Constituent-Centric Neural network) （CCNN），它包含了以下四個層次：
1. 樹的chain-of-trees LSTM編碼層：在編碼層中，鏈式樹LSTM和樹LSTM分別對passage段落和問題中的構成要素進行編碼。
2. 樹引導的注意層：編碼被饋送到樹引導的注意層以學習問題意識表示（question-aware representations）
3. 候選答案生成層：注意力輸出被傳遞到候選答案生成層以基於組分擴展來產生和編碼候選答案。
4. 預測層：預測層使用前饋網絡從候選人中挑選出最佳答案。

2.2 chain-of-trees LSTM編碼層

考慮到段落和問題，我們首先使用斯坦福句法解析器將它們解析爲組成分析樹，然後CCNN的編碼層通過tree LSTM學習組成部分在問題和段落中的表示。

這裏有兩個模型：tree LSTM 和chain of tree LSTM，概念是類似的，我們先看簡單的：tree LSTM

2.2.1 tree LSTM

每個問題都是一個句子，有一個組成分析樹（constituent parse tree）。樹中的葉節點代表單個單詞組成部分，內部節點表示具有多於一個單詞的組成部分。

有了句法樹，我們構建一個雙向樹LSTM，它由一個自下而上的LSTM和一個自頂向下的LSTM組成，以編碼這些成分（如圖4 ）。

每個節點（成分）具有兩個隱藏狀態：LSTM在自底向上產生的h↑和LSTM從上向下產生的h↓。

h↑(i)第i個子代的隱藏層狀態（hidden state），c↑(i)第i個子代的memory cell。

在自底向上的LSTM中，每個節點都有一個輸入門i↑，忘記門{f（l）↑}
對應於不同的孩子，一個輸出門o↑和一個存儲單元c↑。對於內部節點而言，輸入是子節點的隱藏狀態和存儲單元，轉換方程定義爲：

在自上而下的方向上，門，存儲單元和隱藏狀態的定義方式與自底向上方向類似。對於除根之外的內部節點，輸入爲其父節點的隱藏狀態h↓和存儲單元c↓。

對於葉節點，除了h↓和c↓之外，輸入還包含單詞嵌入。

對於根節點，自頂向下的隱藏狀態h↓被設置爲其自下而上的隱藏狀態h↑。這樣： h↑捕獲所有成分的語義，然後將其複製爲h↓並向下傳播到每個單獨的成分中。

最後，連接兩個方向的隱藏狀態，我們得到每個節點h = [h↑; h↓]的LSTM編碼，它將成爲關注層的輸入。

自下而上的隱藏狀態h↑構成了包含在該組成部分中的子組成部分的語義，並且自頂向下的隱藏狀態h↓捕捉整個句子中表現的上下文語義。

2.2.2 Chain-of-Trees LSTM for Passage Encoding

Chain-of-Trees LSTM從字面上來看，就是把一系列Trees LSTM 連成一個鏈。

爲了對包含多個句子的段落進行編碼，我們設計了一個鏈式LSTM（圖4）。爲每個句子建立一個雙向tree LSTM以捕捉本地句法結構，並且這些tree LSTM 通過雙向鏈LSTM粘合在一起以捕捉跨越多個句子的遠程語義。

具體位置輸入爲：由自底向上樹LSTM生成的隱藏狀態充當鏈LSTM的輸入。類似地，鏈LSTM狀態被饋送到自頂向下樹LSTM。這使得每個成分的編碼都能傳播到通道中的所有其他成分。

前向LSTM：每個句子t被視爲一個單位。這個單元的輸入是由句子t的tree LSTM生成的，它是根部的自底向上隱藏狀態h↑t。
後向LSTM：計算記憶門遺忘門之後，隨後，封裝所有語句的語義的→h t和←h t被輸入到自頂向下樹LSTM的根，並傳播到句子t中的所有成分中。

2.3 Tree-Guided Attention Mechanism

我們提出了一種tree-guided attention（TGA）機制來學習文章中每個組成部分的問題意義（ question-aware）表示，其中包括兩個步驟：

（1）constituent-level attention分數計算;

（2）以樹爲導向的歸一化;

給定文章中的constituent h（p），對於問題中的每個成分h（q），計算非標準化的注意力權重a作爲a = h（p）•h（q），其測量兩種成分之間的相似性。

然後我們對這些分數進行樹導向的規範化。在分析樹中的每個內部節點處，其L個孩子的未歸一化注意分數爲{al} ，使用softmax操作執行局部歸一化。。因爲在每個內部節點處，設h爲其LSTM編碼，{al} 爲該節點及其L個孩子的歸一化注意分數，則此節點的注意力表示爲：

然後將它連接到文本成分的LSTM編碼h（p），並獲得將成爲每個成分表示向量 z = [h（p）; b（r）]。

2.4 Candidate Answer Generation layer

雖然訓練集中的大部分正確答案都是組成部分（constituent），但是不完全是這樣。

我們建議通過附加與它相鄰的單詞來擴展每個組成部分。

令C表示一個成分，並且S =“… wi-1 wi C wj wj+1…”是包含C的句子。我們通過追加C之前的單詞（如wi-1和wi）和單詞後的r個字附加到C上。

例子如下：前後擴展兩個單詞，共獲得了9次擴展：

接下來，我們編碼這些候選答案，編碼將用於預測層。

鑑於每個擴展都是組成序列，我們構建了一個雙向鏈LSTM（圖5，右下），以綜合其中各個組成部分的表示。在鏈式LSTM中，單元i的輸入是Ci的組合表示。我們連接C 1處的前向隱藏狀態和C 1處的後向狀態作爲E的最終表示。

2.5 Answer Prediction and Parameter Learning

給定候選答案的表示，我們使用2個隱藏層（兩者具有相同數量單位）的前饋網絡f來預測正確的答案。

網絡的輸入是候選答案的特徵向量，輸出是置信度分數。選擇得分最高的那個作爲正確的答案。

3實驗

實驗在斯坦福問題答疑數據集（SQUAD）v1.1上進行，其中包含來自536維基百科文章的107,785個問題和23,215個段落。數據被隨機分爲訓練集（80％），開發集（10％）和未發佈測試集（10％）。

4思考

題目與答案聯合建模。
對閱讀理解任務來說，本篇論文說的是：最重要的是對“問題”與“原文（答案來源）”進行聯合建模，取得了很好的效果提升。那麼對於我們的“試題”表示學習來說，將題目文本（可以基於樹），與答案文本（試題的講師解析）聯合建模。
總的來說，建模是一種工具，怎麼如何衡量建模的好壞。（各種測評任務）或者建立自己的衡量數據集與任務。

2 Joint Modeling of Content and Discourse Relations in Dialogues

對話中內容與話語關係的聯合建模

1引言

面向目標的對話，如會議，談判或客戶服務記錄，在我們的日常生活中扮演着重要的角色。從對話中自動提取關鍵點（critical points）和重要結果（important outcomes）將有助於爲複雜對話生成摘要（summaries），也有助於理解會議的決策過程或分析協作的有效性。

本文主要關注口頭會議（spoken meetings），這是協作和想法分享的常用方式。

其中，話語結構（discourse structure）可以用來捕捉在會議的問題解決和決策過程中提出的主要討論要點（主題）和論點。原因是:
1. 不同說話人輪流的內容不是孤立地發生的，而有其內在邏輯。
2. 同時，內容的轉變也可以反映說話人的目的轉變（purpose turns），從而便於話語關係的理解。

以圖1中AMI語料庫的會議片段爲例：

這個討論是基於Twente論證模式（ Twente Argumentation Schema ）（TAS）的話語結構加以註釋的。

可以看出，會議參與者通過顯示疑問（UNCERTAIN），提出替代解決方案（OPTION）或提供反饋（feedback)來評估不同的選項。話語信息通過揭示討論流程幫助識別關鍵討論點（key discussion point），即“使用哪種類型的電池”。

當前，對話中的自動話語分析仍然是一個具有挑戰性的問題。而且，獲取關於話語關係的標註是耗時且昂貴的過程，並且不能針對大型數據集進行縮放。

所以，在本文中，我們提出了一種聯合建模方法來選擇（1）反映關鍵討論點的重要短語，並（2）標註談話會議中發言者輪流之間的話語關係。

據我們所知，我們的工作是第一個在會議中共同建立內容和話語關係的模型。我們用兩個會議語料庫 - AMI語料庫和ICSI語料庫測試了我們的模型。實驗結果表明，我們的模型在詞組選擇上的準確率爲63.2，明顯好於基於支持向量機（SVM）的分類器。

我們的話語預測組件也比現有的基於神經網絡的方法獲得更好的準確性（59.2與54.2）

2模型

2.1 Model Description

我們提出的模型學習通過利用兩種信息源之間的相互作用來共同執行內容選擇和話語關係預測。

假設會議討論記錄(meeting discussion)爲x，其中x由話語單元（ discourse units）序列 x = {x 1 ,x 2 ,··· ,x n }組成。每個話語單元 xi 可以是某人完整的一句話或其中一部分。

如圖1所示，爲每次討論構造一棵樹形結構的話語圖，每個話語單元作爲樹的一個節點。

在這項工作中，我們使用了Twente論證模式（TAS）（Rienksetal，2005）的議論性話語結構。對於每個節點x i，它在討論中被附加到它之前的另一個節點x i’ (i’< i )，（對於每一句非開頭話語，總是之前某一句話的“疑問、意見、反饋”）

並且話語關係di保持在鏈路

2.2 Joint Learning for Parameter Estimation參數估計的聯合學習

爲了學習模型參數w，我們採用基於SampleRank的算法，這是一種隨機結構學習方法

算法1中描述了完整的學習過程：

首先，使用從[-1,1]中隨機抽取的每個值對特徵權重w進行初始化。
對於每個樣本，我們隨機地初始化候選短語標籤c和話語關係d的分配。
構造一個MCMC鏈，配置爲σ=（c，d）：
1. 首先選擇分佈q（d’ | d，x）對話語結構d進行採樣
2. 然後基於新的選擇分佈q（c ‘ | c，d’，x）進行短語標籤c的採樣
3. 計算兩個提案得分。如果通過ω（σ0）提高得分，則新配置被接受。參數w會相應更新。

2.3 特徵描述

內容特徵Content Features

重要短語傾向於具有較高TF-IDF分數，所以我們計算每個短語中TF-IDF詞的分數。

我們還要考慮這個詞的主語是否在前面提到，這意味着討論的焦點。

計數標籤和短語類型的數量以表徵句法結構

我們確定討論中包含候選詞組的轉折的絕對位置和相對位置。最後，我們記錄候選詞是否由主講者說出，主講者在討論中發表最多的單詞。

話語特徵Discourse Features

對於每個話語單元，我們收集話語樹中當前單元及其父節點的對話行爲類型，以及它們之間的相似性。

我們記錄同一位發言者是否發出兩個回合。

話語單位的長度也是相關的。因此，我們計算時間跨度和字數。

爲了整合全局結構特徵，我們對話語樹中節點的深度和它的兄弟節點的數量進行編碼。

聯合特徵Joint Features

爲了對內容和話語之間的交互進行建模，我們將話語關係添加到每個內容特徵以組成聯合特徵。

例如，如果候選詞的內容特徵φ[avg-TFIDF]的值爲0.5，並且其話語關係d是POSITIVE，則聯合特徵採用φ[avg-TFIDF，POS]的值爲 0.5。

3 收穫

對試題進行建模的時候，爲了提高精度。可以考慮題幹文本的先後關係。比如把一個題幹分爲[a、b、c]三部分，除了a 的文本之外，能否考慮a是b的條件；b是c的假設；這樣的標籤信息。
還有就是作者對文本的特徵提取方式，比如：特徵詞的個數、同一個關鍵點之前有沒出現過、轉折詞的個數。。。

2018.03.26試題理解論文兩篇閱讀