Microsoft開發靈活的AI系統,可以總結新聞

將段落壓縮成句子對於人工智能(AI)來說並不容易。這是因爲它需要對文本的語義理解,這超出了大多數現成的自然語言處理模型的能力。但微軟的研究人員最近證明,這並非不可能。

在預印本服務器Arxiv.org上發表的一篇論文(“ 結構化神經概述 ”)中,英國劍橋微軟研究院的科學家們描述了一個人工智能框架,可以推斷“弱結構”文本中的關係,使其優於傳統的NLP模型在一系列文本摘要任務上。

當接受CNN和每日郵報的文章訓練時(以及總結每篇文章的句子),它能夠生成以下摘要:

n'golo kante吸引了衆多頂級聯賽俱樂部的興趣。馬賽一直與卡恩簽約,簽下這位24歲的球員。這位24歲的小夥子在身材方面與lassana diarra和claude madelele有相似之處。

它調用像Primer這樣的系統,它使用AI來解析和整理大量文檔。但微軟的人工智能更具普遍性。

研究人員寫道:“總結,將大而複雜的輸入壓縮成保留輸入核心語義的較小表示的任務,是自然語言處理系統的經典任務。” “自動摘要需要機器學習組件來識別它們之間的重要實體和關係,同時忽略冗餘和常見概念......然而,雖然標準[模型]理論上有能力處理任意長距離關係,但實際上它們往往無法正確處理長文本,很容易被簡單的噪音分散注意力。“

它們的兩步解決方案包括一個擴展序列編碼器 - 一個處理輸入序列的AI模型,並根據目標序列的先前字符預測目標序列的下一個字符 - 以及直接從圖形表示中學習的神經網絡。帶註釋的自然語言。

混合系統利用序列編碼器(一個擴展來利用輸入數據中元素之間的已知關係)來爲圖形網絡提供“豐富輸入”:雙向長短期網絡(LSTM)和序列GNN擴展,以及具有指針網絡擴展的LSTM解碼器。(雙向LSTM是一類能夠學習長期依賴性的遞歸神經網絡;它們允許神經網絡將其記憶和輸入結合起來,以提高其預測準確性。)

上圖:摘自文章摘要。

圖片來源:微軟

團隊設置模型 - 序列GNN - 鬆散於三個彙總任務:方法命名,或在給定源代碼的情況下推斷代碼函數(或方法)的名稱; 方法doc,預測方法功能的描述; 和NL總結,創建一個新的自然語言摘要給出一些文本輸入。

爲第一個任務選擇了兩個數據集:一個小型Java數據集,它被拆分用於培訓,驗證和測試; 以及從GitHub挖掘的C#中的23個開源項目生成的第二個數據集。對於第二個任務 - 方法文檔 - 研究人員使用了23個開源C#項目的數據集,而對於第三個任務(NL摘要),他們從CNN和每日郵報中刪除了上述新聞文章(以及總結每篇文章的句子)。

爲了生成AI模型可以從中提取信息的圖形,團隊首先將數據分解爲標識符標記(和子標記),然後通過連接標記構建圖形。代碼被標記爲變量,方法,類和其他類型,而文章語料庫中的文本則通過斯坦福的CoreNLP開源標記化工具運行。

那麼AI系統的表現如何呢?

序列GNN在Java和C#數據集上的方法命名任務中實現了最先進的性能,其中F分數(描述從0到1的性能的度量)分別爲51.4和63.4。它在Method doc中表現略差,研究人員記錄了預測的長度。(與模型16相比,基本事實平均有19個令牌。)在NL總結中,它沒有達到最近的工作; 據說,研究人員認爲這是“由於......簡單的解碼器”和“培訓目標”,並且可以在未來的工作中得到改進。

“我們對這一初步進展感到興奮,並期待 在正式和自然語言的各種任務中更深入地整合混合序列圖建模,”他們寫道。“我們認爲廣泛適用的關鍵見解是,顯式關係建模引起的歸納偏差是提高現有深度學習系統實際性能的一種簡單方法。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章