NLP帶來的“科幻感”超乎你的想象 | 京東ACL2020論文解讀

近些年,人工智能無疑是信息技術領域最熱門的技術之一。人工智能戰勝世界圍棋冠軍、人工智能戰勝遊戲高手、人工智能醫生看病會診……不斷進步的科技正推動着人工智能從一個無法實現的幻想,不斷突破人類的想象,完成一個又一個挑戰。

AI寫科幻劇本?科幻小說都不敢寫

2018年,在全球科幻電影節( Sci-Fi London Film Festival)上的一項名爲“48小時內電影創作挑戰”(SFL 48 Hour Film Challenge)的活動中,來自紐約的導演Oscar Sharp和他在紐約大學AI研究院的同事Ross Goodwin利用人工智能(這套人工智能稱自己爲Benjamin)創作出了一個劇本,並在48小時內將這個劇本拍攝出來了。雖然電影只有短短 9 分鐘,但這也是世界上第一部由AI創作並拍攝出來的電影,這在以前是科幻小說都不敢寫的故事。在此之後,人工智能在電影業中不斷得到更多落地應用。現在,使用機器編寫劇本的想法正在受到如Netflix、Hulu、好萊塢等世界級影視科技公司的青睞。

人工智能劇本創作的關鍵技術—自然語言生成

而在使用人工智能進行影視劇本創作中,NLP 領域的自然語言生成技術是其中的關鍵技術之一。

但自然語言生成技術的應用場景和研究意義遠不止於影視劇本創作。在電商場景下,可用於營銷內容生成以及面向複雜問題回答與人機交互的自動文本生成;融媒體場景下,結合文本與語音合成技術可應用於新聞自動播報、直播文字、多語言/跨語言自動文摘。

相關內容可點擊查看:

➡️京東商城背後AI技術揭祕(一)——基於關鍵詞自動生成摘要

➡️京東商城背後AI技術揭祕(二)——基於商品要素的多模態商品摘要

NLP 最高級別學術認可— ACL 論文收錄

近日,ACL 2020 公佈了今年大會的論文錄用結果。ACL 會議是NLP領域級別最高的國際學術會議,致力於推動自然語言處理相關研究的發展和國際學術交流。

根據官方公佈的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下了所有 ACL 旗下會議新高。ACL  除了在國際 AI 學界具有頂級影響力外,其審稿規範和審稿質量,也是當今 AI 領域國際頂級會議中公認的翹楚,論文被錄取的難度十分高。以 2019 ACL 爲例,論文錄取率僅爲 22.7% 。因此,研究論文能夠被 ACL 錄用,不僅意味着研究成果得到了國際學術界的認可,也證明了研究本身在實驗嚴謹性、思路創新性等方面的實力。

京東 AI 研究院專注於持續性的算法創新,80% 的研究都由京東實際的業務場景需求爲驅動,聚焦 NLP語音、計算機視覺、機器學習(包括深度學習和強化學習)等領域。在 ACL 2020 中,京東 AI 研究院提交的多篇論文經過重重審覈,最終被大會收錄。

今天,我們就將爲大家解讀其中的一篇:Self-Attention  Guided  Copy Mechanism for  Abstractive  Summarization

論文對現有自動文摘的研究方法進行了優化,使通過該新模型生成的摘要內容更加精確。

論文解讀

摘要

自動文本摘要(簡稱“自動文摘”)是自然語言處理領域中的一個傳統任務,其目的是爲輸入文本生成一段簡化文本。常用的自動文摘方法包括抽取式自動文摘(Extractive Summarization)和生成式自動文摘(Abstractive Summarization)。抽取式自動文摘方法抽取輸入文本中的原始句子組成摘要;生成式自動文摘方法利用自然語言生成技術生成摘要。

自動文摘模型的關鍵是準確識別出輸入文本中的重要信息,並輸出涵蓋這些信息的流暢文本。抽取式自動文摘方法可以顯式的對輸入文本的每個句子的重要性進行建模,但是輸出的摘要是通過拼接句子構成的,句間的流暢性無法得到保證。生成式自動文摘方法通常可以輸出較爲流暢的摘要,但是有時無法完全準確捕捉到輸入文本中的重要的信息。

本文所介紹的是自動文摘模型提出了一種自注意力(Self-Attention)指導的複製機制,該方法融合了抽取式自動文摘方法和生成式自動文摘方法,在多個文本摘要數據集上取得了比對比模型更好的性能。

我們首先介紹一下一些相關背景知識,包括自注意力機制,複製機制和抽取式自動文摘方法TextRank算法。

算法及模型

《Attention is all you need》提出了基於自注意力機制的Transformer框架,在機器翻譯任務上超過了當時其他的模型。簡單來說,自注意力機制將文本中的詞兩兩計算相似度,然後對這些相似度進行歸一化得到權重矩陣,最後將這些權重和相應的詞進行加權求和得到下層的隱層表達。

複製機制是自動文摘模型中的一個常用機制。傳統的文本生成在計算生成每個詞的概率時,所有的詞被限制在一個固定大小的詞表中,即生成的詞必須來自於這個固定大小的詞表。複製機制除了會在這個固定大小的詞表中生成某個詞,還會選擇性的在輸入文本中選擇一個詞,這個詞不受詞表限制。複製機制實際上和人類在做摘要時的邏輯相吻合,即輸入文本中的某些詞,尤其是那些關鍵詞,組成了這個文本的主幹。我們只需要將這些關鍵詞從輸入中“複製”到輸出中,然後再做一個適當的加工,使輸出的摘要更加自然。複製機制的動機就是自動識別出這些關鍵詞,然後將其“複製”到輸出摘要中。TextRank算法一種基於圖模型的經典抽取式自動文摘方法,其基本思想來源於谷歌的 PageRank算法。TextRank算法通常會把輸入文本分割成若干基本單元並建立圖模型, 利用基本單元間關係組成的鄰接矩陣進行隨機遊走,獲得各基本單元的入度中心度得分,基於該得分可以對文本基本單元進行排序。

回到主線,本文提出的模型是基於自注意力機制的Transformer模型,並融入了複製機制,即每個詞的輸出概率爲生成概率和複製概率的加權相加:   

其中  爲生成模式的權重

爲生成概率

爲複製概率,本文采用了編碼器-解碼器之間的注意力權重  作爲複製概率:  

其中 是解碼器時刻的隱層狀態,

是編碼器第個輸入對應的隱層狀態,

爲隱層狀態維度

上文提到,自動文摘模型希望通過複製機制將輸入文本中的重要詞複製到輸出中,但由於使用注意力權重作爲複製概率,並不能顯式地識別出哪些詞是重要的詞。我們需要找到一個合適的方式顯式地爲輸入文本中的詞的重要性進行打分,進而指導模型的複製機制,改善複製的效果。TextRank算法利用鄰接矩陣計算輸入文本中每個詞的重要性得分。

我們注意到,Transformer模型的自注意力機制提供了輸入文本中的詞兩兩之間的權重,該權重矩陣可以作爲TextRank算法的鄰接矩陣。基於這個鄰接矩陣,通過隨機遊走,我們可以得到輸入文本中的詞的入度中心度得分,以此作爲詞的重要性得分

進而指導複製概率,公式如下:

此外,我們還嘗試了利用出度中心度得分指導複製概率的方法。

進一步地,我們還將  加入到損失函數中,使重要的詞得到模型足夠的“重視”,即:

原始的損失函數爲:

我們改進的損失函數爲:

實驗結果

我們提出的模型在文本摘要數據集CNN/DailyMail和Gigaword上取得了比對比模型更好的性能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章