乾貨|初學者如何查閱自然語言處理學術資料

作者:劉知遠(清華大學副教授)

最近實驗室剛進組的一位同學發郵件來問我如何查閱學術論文,這讓我想起自己剛讀研究生時茫然四顧的情形:看着學長們高談闊論領域動態,卻不知如何入門。經過研究生幾年的耳濡目染,現在終於能自信地知道如何瞭解最新科研動態了。我想,這可能是初學者們都會有的困惑,與其只告訴一個人知道,不如將這些經驗寫下來,來造福更多同學吧。當然,這個總結不過是一家之談,只盼有人能從中獲得一點點益處。受個人認知所限,難免掛一漏萬,望大家海涵指正。

1. 國際學術組織、學術會議與學術論文

自然語言處理(natural language processing,NLP)在很大程度上與計算語言學(computational linguistics,CL)重合,是計算機科學與語言學的交叉學科,也是人工智能的重要方向。與其他很多計算機分支方向類似,由於技術發展迅速,NLP/CL重視學術會議勝過學術期刊。由於發表週期短,並可以通過會議進行交流,絕大多數最新的重要科研進展都首先發表在學術會議上,而學術期刊更多用來發表會議論文的擴展整理版本,起到歸檔作用。

NLP/CL領域重要的國際學術會議均由國際專業學會發起和舉辦。NLP/CL最權威的國際專業學會是The Association for Computational Linguistics(ACL,URL:The Association for Computational Linguistics Member Portal),這個學會主辦了NLP/CL歷史最悠久也最權威的國際會議,即ACL年會。ACL學會還會在北美和歐洲召開分年會,分別稱爲NAACL和EACL。此外,ACL學會下設多個特殊興趣小組(special interest groups,SIGs),性質類似大學校園的興趣社團,聚集了NLP/CL不同子領域的學者。其中比較有名的包括SIGDAT(Linguistic data and corpus-based approaches to NLP)、SIGNLL(Natural Language Learning)等。這些SIGs也會組織一些國際學術會議,其中比較有名的就是SIGDAT組織的EMNLP(Conference on Empirical Methods on Natural Language Processing)和SIGNLL組織的CoNLL(Conference on Natural Language Learning)。此外,還有一個全稱International Committee on Computational Linguistics的老牌NLP/CL學術組織,每兩年組織International Conference on Computational Linguistics(COLING)國際會議,也是NLP/CL的重要學術會議。NLP/CL領域的絕大部分重要進展都發表在這些學術會議上。

從論文水平和關注度來看,一般公認ACL、NAACL、EMNLP、COLING爲NLP/CL最重要的四大頂級學術會議。其中ACL是公認最權威的NLP/CL會議,參會人數也最多。ACL 2015在北京舉辦,參會人數爲1200;ACL 2016在德國舉辦,參會人數達到1600多人。美國是NLP/CL重鎮,因此NAACL的論文質量也非常高。EMNLP是相對年輕的學術會議,創立於1995年前後。創立EMNLP的目的就是關注統計機器學習方法在NLP/CL中的應用。因此,隨着最近10餘年互聯網高速發展,基於大規模數據的機器學習方法特別是近年來深度學習大行其道,最近幾屆EMNLP發展很快,例如EMNLP 2016有800餘人參加。COLING是老牌的NLP/CL的學術會議,歷史非常悠久。也許由於每兩年召開一次的傳統,似乎不太適應最近NLP/CL技術高速發展的特點,近年來COLING論文關注度有較爲明顯的下降,不過仍然是NLP/CL值得關注的重要會議。

作爲NLP/CL領域的學者最大的幸福在於,ACL學會網站建立了稱作ACL Anthology的頁面(URL:ACL Anthology),爲其主辦的所有國際學術會議論文提供免費下載,甚至也囊括了其他組織主辦的學術會議,例如COLING、IJCNLP等。該平臺還支持基於Google的全文檢索功能,可謂一站在手論文我有。

NLP/CL的旗艦學術期刊是Computational Linguistics(MIT Press Journals - Computational Linguistics),發表過很多經典學術論文。該期刊每期只有幾篇文章,平均質量高於會議論文,而且一般內容比較全面詳細,值得認真研習。特別是其中的綜述文章,是快速全面瞭解相關NLP/CL任務的最好文獻。此外,ACL學會爲了提高學術影響力,也創辦了論文要求篇幅相對較短的Transactions of ACL(TACL,URL:http://www.transacl.org/),值得關注。值得一提的是,這兩份期刊也都是開放獲取的。此外也有很多與NLP/CL有關的期刊,如ACM Transactions on Information Systems,ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等等。

根據Google Scholar Metrics 2016年對NLP/CL學術期刊和會議的評價,ACL、EMNLP、NAACL、LREC、Computational Linguistics位於前5位,COLING排在第9位,基本上反映了本領域學者的關注程度。

NLP/CL作爲交叉學科,其相關領域也值得關注。主要包括以下幾個方面:(1)信息檢索和數據挖掘領域。相關學術會議主要由美國計算機學會(ACM)主辦,包括SIGIR、WWW、KDD、WSDM等;(2)人工智能領域。相關學術會議主要包括AAAI和IJCAI等,相關學術期刊主要包括Artificial Intelligence和Journal of AI Research;(3)機器學習領域,相關學術會議主要包括ICML,NIPS,AISTATS,UAI等,相關學術期刊主要包括Journal of Machine Learning Research(JMLR)和Machine Learning(ML)等。例如最近興起的knowledge graph研究論文,就有相當一部分發表在人工智能和信息檢索領域的會議和期刊上。我國計算機學會(CCF)制定了一份“中國計算機學會推薦國際學術會議和期刊目錄”(CCF推薦排名),已經經過若干次重要修訂,是迅速瞭解每個領域主要期刊與學術會議的方式。

最後,ACL學會維護了一個wiki頁面(ACL Wiki),包含了大量NLP/CL的相關信息,如著名研究機構、歷屆會議錄用率,等等,都是居家必備之良品,值得深挖。例如,我們可以從相應wiki頁面(https://www.aclweb.org/adminwiki/index.php?title=2016Q3_Reports:_Program_Chairs )看到ACL 2016 PC主席的工作總結,瞭解投稿主題分佈、審稿流程、錄用決策方式、錄用情況等信息,這對研究選題、改進論文寫作和提高投稿命中率很有幫助。

值得一提的是,隨着深度學習技術的興起,NLP/CL的新模型層出不窮,這兩年來有越來越多的國際頂級學者選擇在預印本文庫http://arxiv.org上首先發布自己的最新成果,已經成爲了解NLP/CL深度學習最新技術的重要信息源。由於http://arxiv.org上的論文發佈並不包括同行評審,發佈速度比學術會議更快;但相應的,http://arxiv.org上的論文良莠不齊,不乏內容粗劣不堪的佔坑之作。因此,建議大家在關注http://arxiv.org論文時,特別注意那些來自著名研究機構(如Google DeepMind、Facebook AI Research等)和著名學者(如Yoshua Bengio等)的論文,而對來源不太知名的論文則應多些審慎態度,避免浪費時間和精力。

2. 國內學術組織、學術會議與學術論文

國內NLP/CL領域最權威的專業學會是中國中文信息學會(654 - 沒有執行單元)。通過學會理事名單(中國中文信息學會),基本能夠了解國內從事NLP/CL的主要單位和學者。學會每年組織很多學術會議,例如全國計算語言學學術會議(CCL)、全國信息檢索學術會議(CCIR)、全國社會媒體處理大會(SMP)、全國知識圖譜大會(CCKS)、全國機器翻譯研討會(CWMT),等等,是國內NLP/CL學者進行學術交流的重要平臺。近年來國內NLP/CL學者在國際會議上日益活躍,因此ACL、COLING等國際頂級會議也選擇在國內舉辦。2010年在北京召開的COLING,以及2015年在北京召開的ACL,中文信息學會都是主要承辦者,這一定程度上反映了學會在國內NLP/CL領域的重要地位。此外,中國計算機學會中文信息技術專委會組織的自然語言處理與中文計算會議(NLP&CC)也是最近崛起的重要國內學術會議。

中文信息學會下設一個青年工作委員會,基本上囊括了國內大部分NLP/CL的一線青年學者(中國中文信息學會青年工作委員會 " 委員介紹),在全國各地不定期地組織NLP/CL專題研討會,例如知識圖譜研討會等。從今年開始,青工委還組織很多頂級會議的國內論文報告會,如IJCAI 2016、ACL 2016、EMNLP 2016、COLING 2016等等,基本反映了國內NLP/CL的最新重要進展,是很好的學習交流機會。這些活動信息均會在青工委微信公衆號上發佈,大家可以在微信中搜索“中文信息學會青年工作委員會”關注最新動態。

中文信息學會旗下的《中文信息學報》是國內該領域的重要學術期刊,發表過很多篇重量級論文,目前由清華大學孫茂松教授擔任主編。國內著名的《計算機學報》、《軟件學報》等期刊上也常有NLP/CL論文發表。

3. 社會媒體

過去國內主要的線上交流平臺是水木社區BBS的AI、NLP等版面,如今早已成爲明日黃花。隨着社會媒體的發展,越來越多學者使用新浪微博、微信羣和知乎,可以進行便捷地學術交流。很多在國外任教的老師和求學的同學也活躍在新浪微博和知乎上,例如王威廉(Sina Visitor System)、熊辰炎(熊辰炎 - 知乎)等,經常爆料國際上的最新動態,非常值得關注。總之,學術研究既需要苦練內功,也要重視交流。“言者無心、聽者有意”,也許其他人的一句話就能點醒你苦思良久的疑惑。

4. 如何快速瞭解某個領域研究進展

最後簡單說一下快速瞭解某領域研究進展的經驗。你會發現,搜索引擎是查閱文獻的重要工具,尤其是谷歌提供的Google Scholar,由於其龐大的索引量,將是我們披荊斬棘的利器。

當需要了解某個領域,如果能找到一篇該領域的最新研究綜述,就省勁多了。最方便的方法還是在Google Scholar中搜索“領域名稱 + survey / review / tutorial / 綜述”來查找。也有一些出版社專門出版各領域的綜述文章,例如NOW Publisher出版的Foundations and Trends系列,Morgan & Claypool Publisher出版的Synthesis Lectures on Human Language Technologies系列等。它們發表了很多熱門方向的綜述,如文檔摘要、情感分析和意見挖掘、學習排序、語言模型等。Google Scholar上也有越來越多學者建立了個人的論文主頁,可以方便地看到相關領域重要學者的研究脈絡。最近AI2也建立了一個叫做Semantic Scholar的學術網站,提供更精細的作者和論文引用分析。

如果方向太新還沒有相關綜述,一般還可以查找該方向發表的最新論文,閱讀它們的“相關工作”章節,順着列出的參考文獻,就基本能夠了解相關研究脈絡了。當然,還有很多其他辦法,例如去http://videolectures.net上看著名學者在各大學術會議或暑期學校上做的tutorial報告,去直接諮詢這個領域的研究者,等等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章