Merging Weak and Active Supervision for Semantic Parsing論文筆記

AAAI 2020

論文地址 https://arxiv.org/pdf/1911.12986.pdf
源碼地址 https://github.com/niansong1996/wassp (現在爲空,待作者更新)

要點:整體弱監督 + 少量數據標註(主動學習active learning)

符號含義:
MR:meaning representation

Motivation

強監督:需要大量標註數據,標註困難
弱監督:搜索空間大,reward稀疏(且只有0和1兩種reward),且存在 最終答案正確但是邏輯表示不正確 的問題

因此,爲了彌合這一差距,文章研究了弱監督與主動學習之間的交集,這使learner可以主動選擇示例並查詢手動註釋作爲額外的監督,以改進在弱監督下訓練的模型。文章研究了用於選擇示例進行查詢的不同的主動學習啓發式方法,以及針對此類查詢的各種形式的額外監督。

算法overview

名稱:Weak and Active Supervision for Semantic Parsing (WASSP)
在這裏插入圖片描述

首先弱監督方法訓練一個semantic parser直到收斂。然後選取一部分訓練數據,主動尋求額外的標註(監督),來refine當前數據的MR候選列表。

那麼,WASSP這個算法存在以下三個問題:

  1. WASSP相比弱監督的semantic parser,有多少提升?
  2. 如何挑選active learning的訓練數據,來最大化提升模型準確率?
  3. 對於每個挑選出來的utterance,WASSP可以用什麼樣的extra supervision來提升模型?

文章分爲了以下幾個部分介紹:弱監督semantic parsing、合併weak和active的semantic parsing、數據挑選的啓發式方法、額外監督的形式,以及最後的實驗與實驗結果。

Weakly Supervised Semantic Parsing

supervised semantic parsing:訓練數據二元組(語句q,邏輯表示z)
weakly supervised:三元組(語句q,執行器k,最終結果a)

弱監督學習的兩個難點:

  1. 搜索空間巨大
  2. spurious邏輯表示(邏輯表示是錯誤的,但是最終的結果是對的)

搜索空間巨大的解決方法

  • 採用採樣或k最佳搜索來近似此空間:Guu, K.; Pasupat, P.; Liu, E. Z.; and Liang, P. 2017. From language to programs: Bridging reinforcement learning and maximum marginal likelihood. arXiv preprint arXiv:1704.07926.
  • 與複雜的方法結合使用,以減少類型約束引起的合理MR的空間:Krishnamurthy, J.; Dasigi, P.; and Gardner, M. 2017. Neural semantic parsing with type constraints for semi-structured tables. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 1516– 1526
  • 使用內存緩衝區來緩存探索到的reward高的MR:Liang, C.; Norouzi, M.; Berant, J.; Le, Q.; and Lao, N. 2018. Memory augmented policy optimization for program synthesis with generalization. arXiv preprint arXiv:1807.02322.

Spurious MRs的解決方法

  • 用額外的語義或詞典信息訓練過的排名工具ranker:Cheng, J., and Lapata, M. 2018. Weakly-supervised neural semantic parsing with a generative ranker. In Proceed- ings of the 22nd Conference on Computational Natural Language Learning, 356–367.
  • 引入先驗知識來bias策略:Misra, D.; Chang, M.-W.; He, X.; and Yih, W.-t. 2018. Policy shaping and generalized update equations for semantic parsing from denotations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2442–2452.

Merging Weak and Active Supervision

如前面圖所示,WASSP分爲三個步驟:

  • step1: 用弱監督的方法,基於數據集D,訓練收斂得到一個semantic parser,每條語句都有一個MR候選列表。
  • step2: 用啓發式的選擇方法,從D中選取一個子集D’, 對D’中的數據進行標註,作爲額外監督。(啓發式的選擇方法和額外標註方法在下文詳細介紹)
  • step3: 經過對D’額外標註後,更新MR候選列表中的MR(篩去不正確的)。

相當於:每當弱監督的訓練停止時(收斂),WASSP允許解析器選擇訓練集的一小部分並查詢額外的監督,並使用收到的額外監督來幫助繼續訓練過程。

啓發式的數據選取方法 Query Sample Selection Heuristics

三種:correctness-based、uncertainty-based、coverage-based

correctness-based
雖然,執行結果正確但MR不一定正確,但是執行結果不正確的話MR一定不正確。
因此,correctness-based啓發式方法就是選擇:parser沒有生成與預期執行結果匹配的MR的示例q。就是說選擇一個語句q,得到的MR執行後的結果都是錯誤的,reward始終爲0。這樣才能爲其提供額外監督,與那些reward不爲0的相比獲益更大。

uncertainty-based
選取parser對預測的不確定性最大的example。用一個最少置信分數公式來衡量一個example的不確定性。
在這裏插入圖片描述

coverage-based
選擇最具代表性的例子,即涵蓋儘可能多的其他未選擇示例。最具代表性的選法又分兩種

  1. Failed Word Coverage:選擇單詞數量最多,更容易導致失敗的示例。
    首先,將候選MR都無法得到正確結果的示例組成D~(與correctness-based一樣),然後統計每個word導致Fail的可能性:(單詞q出現在D~中的次數)/(單詞q在所有數據D中的次數),基於下面公式,選擇涵蓋了更多可能導致失敗的單詞的示例。
    在這裏插入圖片描述
  2. Clustering:
    聚類的方法,用Glove作爲詞向量,然後計算句向量(詞向量的平均),基於句向量進行K-means聚類。
    給定訓練示例的聚類,首先按聚類的大小對聚類進行排名,並省略聚類的最後20%,以降低選擇不具代表性的示例(即離羣值)的風險。
    然後,從其餘的每個聚類中,隨機抽樣相等數量的示例,以鼓勵多樣性。

額外監督的形式 Forms of Extra Supervision

就是說,給予數據額外的標註,那麼標註形式是什麼

  1. Fully-specified MRs:完整的可執行的MR,可以得到高reward,直接用於訓練。當然是首選。
  2. MR Sketches:MR框架(草圖),包括運算符或函數名稱,但是未填充變量或參數。
    通過標註了MR框架後,就可以:
    1)刪去獲得高Reward的spurious MR
    2)使用此框架作爲之後探索的指導(例如,受約束的解碼),只有在其MR框架與標註的MR框架匹配時,高獎勵的MR纔會保存在Zˆ中。
    這樣的MR框架可以減少搜索空間、增強MR的通用性:加快標註

實驗部分:

數據集

WikiSQL 、 WikiTableQuestions

模型:

neural symbolic machines (NSM[1]) + MAPO[2]

[1] Liang, C.; Berant, J.; Le, Q.; Forbus, K. D.; and Lao, N. 2016. Neural symbolic machines: Learning semantic parsers on freebase with weak supervision. arXiv preprint arXiv:1611.00020.
[2] Liang, C.; Norouzi, M.; Berant, J.; Le, Q.; and Lao, N. 2018. Memory augmented policy optimization for program synthesis with generalization. arXiv preprint arXiv:1807.02322.

訓練過程:

根據上兩篇論文[1] [2],在WikiSQL 、WikiTableQuestions兩個數據上訓練,參數與原論文中相同。

對於WikiSQL,進行三次迭代,每次迭代中先標註額外監督,然後訓練5k步。

對於WikiTableQuestions,只運行一次迭代,但是使用人工註釋的MR訓練了50K步

評估標準:

accuracy,得到正確執行結果的比例

實驗結果:

WikiSQL:

在這裏插入圖片描述

WikiTableQuestions:
在這裏插入圖片描述

不同的選擇數據的啓發式方法
在這裏插入圖片描述

不同的額外監督的形式,完整MR或MR框架:
在這裏插入圖片描述

總結:

將弱監督和主動學習結合在一起進行語義解析的框架。
研究了不同的選擇樣本的方法,以及額外標註的兩種形式
在兩個數據集上進行的實驗表明,WASSP可以通過標註少量示例來極大地提高弱監督語義解析器的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章