EMNLP 2018 今日開幕!3 大亮點逐個看

AI 科技評論按:作爲自然語言處理領域的頂級會議之一,EMNLP 2018 今日在比利時首都布魯塞爾正式召開。10 月 31 日至 11 月 1 日爲 Tutorial 及 Workshop 環節,正會從 11 月 2 日開始,11 月 4 日結束。爲期五天的大會將包括 3 場 Keynote、6 場 Tutorial 以及 14 場 Workshop。去年,雷鋒網 AI 科技評論第一時間爲大家分享了論文錄用情況最佳論文解讀。今年,會上的精彩內容也不容錯過。以下便是今年的參會亮點。

亮點 1 :大咖雲集

Keynote 是大會重頭戲,今年有三場 Keynote,主講人爲 Johan Bos 、Julia Hirschberg 和 Gideon Mann。

Johan Bos 是來自荷蘭格羅寧根大學的計算機語義學教授,他的演講題目爲《The Moment of Meaning and the Future of Computational Semantics》,他將在本次演講中分享計算語義學在自然語言處理應用程序中所起的作用,他認爲學界不應將眼光侷限於語義分析,一旦中性語義表示可以用來描述推論,事情將變得非常有趣。屆時他會以一個由正式語義表示構成、包含多語註釋文本的語料庫作爲輔助說明。

Johan Bos

Julia Hirschberg 是哥倫比亞大學計算機科學系主任,她本次的演講題目爲《Truth or Lie? Spoken Indicators of Deception in Speech》,她會在演講中分享一個通過口語檢測來識別欺騙行爲的方法。在這項研究工作中,分類器被置放於包含欺騙性語料與非欺騙性語料的語料庫中進行訓練,爲了更好地區分真話和謊言,他們甚至運用了韻律聲學、詞彙學、人口統計和個性分析等手段進一步完善工具。他們進一步研究了基於性別、個性和母語的欺騙行爲的差異,並將他們的系統與人類表現進行比較。他們還擴展研究,以識別可信的言語和不可信的言語中的特徵,以及這些特徵在聽話者和說話者間的差異。

Julia Hirschberg

Gideon Mann 是彭博有限合夥企業(Bloomberg L.P.)的數據科學部門主管,他的演講題目爲《Understanding the News that Moves Markets》,他將在演講中與大家回顧語言技術是如何讓資本市場參與者快速對世界重大事件與突發商業事件做出響應的,接着他會分享 NLP 在金融應用方面的最新進展,以及新興研究正在試圖解決的一些問題。

Gideon Mann

今年的大會主席是來自美國猶他大學的 Ellen Riloff,她因爲在 bootstrapping 和信息提取領域的工作而聞名。值得一提的是,蘋果也將參加本屆 EMNLP 大會,這是蘋果首次以企業身份參加人工智能學術會議,屆時他們會安排 NLP 專家在展臺與參會者展開學術交流。

亮點 2 :熟悉的中國面孔

AI 科技評論發現今年有兩場 Tutorial 出現國人身影,分別是 10 月 31 日早上由新加坡理工大學助理教授 Yue Zhang 主講的《 NLP 聯合模型》,以及 11 月 1 日下午由微軟亞洲研究院武威與北京大學助理教授嚴睿主講的《聊天機器人的深度學習模型》。

《NLP 聯合模型》着重介紹當下 NLP 研究中熱門的聯合模型,該模型允許相關任務共享信息,避免錯誤傳播,Yue Zhang 教授還將與大家回顧統計和神經模式的幾個主要建模方法;《聊天機器人的深度學習模型》着重介紹聊天機器人對話模型的建模工作,總結分享開放型對話建模所面臨的挑戰、任務型對話模型與開放型對話建模的區別,以及開放型對話領域的一些最新建模方法。

領域主席方面,我們同樣發現了來自中國高校與企業的身影,其中臺灣大學的 Hsin-Hsi Chen 教授擔任文本挖掘與信息檢索領域主席;香港中文大學的 Kam-Fai Wong 教授擔任社交媒體、計算社會科學與情感/觀點分析領域主席;北京大學的萬小軍教授擔任敘述、對話、總結、生成與多模態 NLP 領域主席;清華大學的劉洋副教授與騰訊AI lab 的塗兆鵬博士擔任機器翻譯與多語現象領域主席。

這也意味着,中國的學者與企業研究員將在 EMNLP 2018 中扮演關鍵的對話角色。

同樣活躍的還有來自中國的企業贊助商。EMNLP 2018 贊助商分爲6 個等級(鑽石、鉑金、黃金、白銀、青銅、支持者),其中百度、京東爲鉑金贊助商,視源股份、依圖科技、搜狗爲黃金贊助商,華爲與香儂科技爲白銀贊助商。共有7 家國內企業贊助了 EMNLP 2018。

EMNLP 2018 發放的官方手提袋

亮點 3:乾貨滿滿

Workshop 方面,除了多年延續下來的幾場專題會外,今年還新增由由亞馬遜公司贊助的《NLP神經網絡的分析與闡釋》 以及專注可驗證知識提取的 《事實提取和驗證》Workshop。

參會者在聚精會神聽演講

今年的獲獎論文也已經公佈,作爲頒獎禮上最重磅的環節,大家可以與最佳長論文、最佳短論文、最佳資源論文作者交流經驗,探討學術。獲獎論文具體信息如下:

最佳長論文

1)《Linguistically-Informed Self-Attention for Semantic Role Labeling》(用於語義角色標註的考慮語言學信息的自我注意力方法)

論文鏈接:http://cn.arxiv.org/abs/1804.08199

論文提出基於語言學的 self-attention(LISA),該神經網絡模型將 multi-head self-attention 與多任務學習相結合,包括依賴解析、詞性標註、謂詞檢測和語義角色標記。與先前需要大量預處理來準備語言特徵的模型不同,LISA 可以僅使用原始的 token 對序列進行一次編碼,來同時執行多個預測任務。

2)《Phrase-Based & Neural Unsupervised Machine Translation》(基於詞語的、無監督神經網絡的機器翻譯)

論文鏈接:https://arxiv.org/abs/1804.07755

本文探討了如何在只有大規模單語種語料庫的情況下進行機器翻譯,並提出了兩個模型(變式):基於神經網絡/基於短語。兩個模型使用了精心設計的參數初始化、語言模型的降噪和基於迭代反向翻譯的並行預料生成。模型的優勢在於操作上更簡單,同時具有更少的超參數。

最佳短論文

《How Much Reading Does Reading Comprehension Require? A Critical Investigation of Popular Benchmarks.》(閱讀理解模型的閱讀量需求?一項關於流行基準的批判性調研工作)

論文鏈接:https://arxiv.org/pdf/1808.04926.pdf

本文爲 bAbI、SQuAD、CBT、CNN 和 Whodid-What 數據集建立了合理的基線模型,發現只帶有問題或文章的模型一般有更好的表現。

最佳資源論文

《MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling》(MultiWOZ—面向任務型對話建模的大規模跨領域數據集)

論文鏈接:http://cn.arxiv.org/abs/1810.00278?context=cs.CL

儘管機器學習已是對話研究領域的關鍵場景,然而可用的數據規模依然很少,阻礙了該研究領域的進一步突破。爲了解決這一問題,本文引入了 Multi-Domain Wizard-of-Oz 數據集(MultiWOZ)——這是一個涵蓋多個領域和主題的書面對話標註數據集。

按照往年慣例,EMNLP 將在開幕式當日公佈大會論文收錄情況,從某些方面來說,這些信息也能反映自然語言處理領域的某種研究趨勢,AI 科技評論將持續關注大會動態,爲大家帶來更多最新信息。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章