自然語言處理領域閱讀指南

譯自 Munro, Robert

像每個工程領域,自然語言處理(NLP)既有接受率約爲20%或者更低的頂級會議,也有每篇論文都接受的地方。 這也就意味着這裏有很多低質量論文。 然而除了 Quora 的 NLP 模塊有提到,我在網上並沒有找到太多關於 NLP 會議的介紹。

其實很多類似的知識都像是一種圈內人的隱性知識,對外人來說有些不透明。而且一些很好的會議也都沒在推廣上做太多工作,因爲該領域的每個人都已經知道他們就是領導者了,沒必要花多餘的精力。

因此,對於試圖在 NLP 中探索哪些應該讀的圈外人或者新手來說,我認爲我可以分享一些更全面的東西。 首先,簡單起見,其實在 NLP 中,你幾乎只需要查看這六個會議:

ACL: Association for Computational Linguistics
EMNLP: Empirical Methods in Natural Language Processing
NAACL: North American Chapter of the Association for Computational Linguistics
EACL: European Chapter of the Association for Computational Linguistics
COLING: International Conference on Computational Linguistics
CoNLL: Conference on Natural Language Learning

當然,同時你還可以看看信息檢索,人工智能,機器學習和數據挖掘相關領域的頂級會議如:

SIGIR: Special Interest Group on Information Retrieval
AAAI: Association for the Advancement of Artificial Intelligence
ICML: International Conference on Machine Learning
ICDM: International Conference on Data Mining
ICLR: International Conference on Learning Representations

(更多可以查看我之前的一個分享。)

然後,還有少數一些相關的期刊。

Journal of Computational Linguistics
Transactions of the Association for Computational Linguistics
Journal of Information Retrieval
Journal of Machine Learning

所以對於嫌麻煩的人來說,這裏有個極簡閱讀指南:

如果論文來自上面提到會議的主會場,或者是其中某個期刊,請閱讀。 如果不是,請忽略它。 同樣的如果你寫出了具有開創性研究成果的論文,想要投稿,也可以如此參考。

若是想知道更詳細的人,可以繼續讀下去。

更詳細的閱讀指導

上面這個是個簡化版的回答,具體答案要複雜得多。 其實在其他地方發表 NLP 相關成果也很正常:比如我的大部分出版和發表都不是在上述這些場所中。

爲了幫助你瞭解其中差異,以下是一些需要考慮的其他細節。 其中大部分是 NLP 領域的一般知識,還有些是來自我自己經驗的主觀知識:

1. 閱讀:會議和期刊

會議是王道。 如果你正在查找論文,那麼就得清楚會議和研討會(workshop)之間有很大的差異。得確保論文來自主會議,而不是相關的研討會。

還有,像 NLP 這樣的工程領域的頂級會議通常比頂級期刊更好(與大多數科學不同)。這主要是因爲其快速的週期,可以吸引更多的研究人員。當然,期刊標準仍然很高,一篇涵蓋的研究內容通常要比典型的8或10頁的會議論文要多。

......如果有人知道 workshop 和 symposium (兩者中文翻譯都是研討會)之間的區別,請告訴我。

2. 跳過:關於某應用領域的研討會

關於將 NLP 應用於某特定領域的研討會,主要是針對在類似子領域中工作的人員,以分享他們的研究並尋找可能合作機會。 它也非常適合年輕研究人員獲得他們的初次發表。而且擁有一個專注的學科領域,也有助於吸引其他研究人員到此應用領域。

例如,我參加了 IJCNLP 2013年的語言處理和危機信息研討會的計劃委員會。 這是一個很棒的研討會,有一些實體論文,並引起了其他 NLP 研究人員的興趣,他們可能會想將他們的技能運用到這個領域。 總的來說,它實現了它的初衷。 但是大多數提交的論文都被接受了,所以無法保證這些論文經過仔細審覈。對於這方面的工作,最好留意之後幾年同一作者在頂會上的論文

3. 閱讀:專注於 NLP 子領域的研討會

例如,我在和 ACL 2012 同時進行的第4屆命名實體研討會(Named Entities Workshop, NEWS)上,發表了一篇關於災難響應的命名實體識別的論文:

Munro, Robert and Christopher Manning. 2012. Accurate Unsupervised Joint Named-Entity Extraction From Unaligned Parallel Text. The 4th Named Entities Workshop (NEWS), Jeju, Korea.

我更傾向於相信有關子領域的研討會,而不是關於應用領域的研討會。你可以確保論文的審稿者都對“命名實體識別”這個子領域瞭解很多。但是這裏也通常比主會議更容易被接受,因此在這樣的研討會上論文質量仍然不太高。我不確定 NEWS 的水平有多高,但是機器翻譯等更受歡迎的子領域卻會有很高的品質。例如,統計機器翻譯研討會 (Workshop on Statistical Machine Translation) 的論文,我相信都是經過了解相關領域的人充分審查的,幾乎相當於大多數主會場上的論文了。

4. 跳過:主題演講和邀請演講

如果你被邀請了,那麼(顯然)沒有雙盲的同行評審。 比如我的一個例子:

Munro, Robert. 2010. Crowdsourced translation for emergency response in Haiti: the global collaboration of local knowledge. (Keynote) AMTA Workshop on Collaborative Crowdsourcing for Translation. Denver, Colorado.

主題演講是個非常好的地方,讓人們超越學術界限制來談論大局和戰略問題。 它也是人們總結大量過去工作的好地方。 但這樣的內容不受雙盲審查,所以你不應當把這些看成和經過仔細審查的論文一樣。

5. 閱讀:頂級會議的短論文

有些會議允許短論文,通常爲4頁。

在一個好的會議上,一篇短論文幾乎總是比研討會或次要會議上的長篇論文還要好。 大多數情況下,一篇短論文一般意味着它之前作爲長論文提交被拒絕了,之後重新提交。它不用符合同一會議的長論文標準,只需要4頁就行,所以一些會議甚至會要求人們同時提交長短論文,以確保一些刻意投短論文的,而不是被刪減過的長論文。 查看會議的“徵集論文”頁面,以確定對短論文的確切信息。

6. 跳過:通過摘要審查(或根本沒有)的會議

在人文學科中,會議論文通常得不到全面評審,期刊會更重要(這其實在工程學以外都非常常見)。

在 NLP 中,一個例子就是 LREC 會議,它的論文都只通過摘要進行審查,然後他們發佈該摘要而無需進一步修改。 LREC 是查找 NLP 資源信息的最佳會議,也是那些創建語言資源的人聚集的最佳會議。 但這些論文並未經過同行評審。

7. 閱讀:來自頂級機構/導師的博士論文

博士論文可以算作經過同行評審的工作,但是其中差異也和論文一樣大。 如果博士論文是由頂尖大學授予的,那麼它就比較有價值,但你還是得確定它在給定領域的專業性。可以看看誰在審查委員會,然後看看這些研究人員都怎麼樣:
http://scholar.google.com/citations?view_op=search_authors&hl=en&mauthors=label:natural_language_processing

博士審查委員會是不是由頂尖研究人員組成的? 如果是的話,那你就可以讀讀。 通常一個優秀的博士論文,也會有幾章內容是在頂級 NLP 會議上發表過的。

8. 跳過:領域外的會議和期刊

這是一些最糟糕論文出現的地方。如果審稿人沒有 NLP 的背景,那麼他們更可能讓論文充滿錯誤或誤導性信息然後還被接受。甚至像 Nature 這樣的期刊也可以通過糟糕的 NLP 文章:參見 Mark Liberman 對“Language cool as they expand”的評論(它的博客,Language Log 是關於語言的必讀博客之一,即使沒有同行評審)。

另一個例子是 ISCRAM:Information Systems for Crisis Response and Management。在很多場合,我看到自己的工作在那裏被扭曲了。在一篇論文中,研究人員誤解了我複雜的語言獨立研究,錯誤地引用我們的話說,以英語爲中心的研究確實適用於其他語言。這是一種錯誤的引用,以使他們能跳過建立(最難)90%的研究。

9. 閱讀:被引用很多的論文

引用可以很好地指示出論文的重要性,但有的時候也會出現誤導。 例如,BioNLP 這個子領域與生物學領域重疊,而生物學領域的研究人員多於 NLP,因此就有更多的人可以引用論文。

有時候,即使是技術報告(未經審查的論文)也可能具有影響力:

Winograd, Terry (1971). Procedures as a representation for data in a computer program for understanding natural language. Technical Report, MIT.

許多重要的論文都很相似,因爲它們經常開創出科學領域。 根據經驗,對於NLP 中的論文,1000次或更多次引用意味着它可能是高質量的研究,特別是如果其中許多引用來自於頂級會議的論文

10. 跳過:書籍章節

如果論文是書的章節,那麼很可能是僞裝的研討會論文。 許多較小的工程研討會和會議將把會議記錄作爲一本書出版。 這不一定是故意欺騙 - 它起源於大多數論文可以在線發表之前,而且它是捆綁論文以便分發的簡單方法。

在大多數其他情況下,書籍章節都是被邀請寫的,因此不受雙盲的同行評審。 而且如果真的是很有重量的研究的話,那也不會在書的章節,而是直接在頂會上發表了。

11. 閱讀:來自頂級研究人員的教科書

這是一個比較難的過程:因爲現在任何人都能隨時出版一本書,並且想怎麼叫就怎麼叫,但最受歡迎的教科書往往來自頂級的研究人員。 我建議你可以查查作者先:如果他們在上述的頂級會議經常發表,那麼教科書質量也應該很好。書的引用次數也是一個有用的指標。

(Andy: 舉幾個例子比如說 Manning,還有 Goldberg 他們的教科書就非常棒,如果你去查這倆人也會發現他們在頂會都有不少發表。)

12. SKIP:討論可部署系統的學術論文

我們需要學者來推動科學的界限,這是一項罕見且至關重要的技能。而不是讓我們最好和最聰明的人去生產標準化的軟件 - 這個世界上已經有夠多的了。

除非研究人員來自一家大型公司(微軟,谷歌或IBM),且成立的研發團隊專注於NLP,否則他們不會生產可用於工業的軟件。 大規模的機器學習非常複雜,並且建立在許多與自然語言處理無關的操作和監控的軟件開發技能之上。

13.閱讀:你最喜歡的研究員的任何東西

我們都有被“審稿人#3”給坑了的情況,看到我們認爲好的研究被拒絕。 於是有時,一位優秀的研究人員會將這項研究簡單地提交給一個較小的會議,以便在進入新項目之前與社區分享。 如果你已經瞭解某個研究人員可以提供高質量的工作,那麼就可能在不太知名的地方尋找到一些寶石。

其他列表和我錯過的東西

雖然我已經試圖列出一些客觀上公認特別棒的會議,但還是有些我不太瞭解,例如 IJCNLP International Joint Conference on Natural Language Processing 和新的關於計算語義的聯合會議 SEM* 等等。

你可能會說,這些會議和上面列出的一些會議一樣具有競爭力,只是現在缺一些聲望而已。

還有一些更常見的機器學習/數據挖掘會議通常也有 NLP 論文:比如 NIPS 和 KDD,或者更側重於語音識別等相關領域,如 Interspeech。

此外,你還可以找些列出各個會議截稿日期的網站來獲得會議信息,例如 NLP Calendar。這些將使你對該領域的研究人員認爲重要的內容有所瞭解。同樣,可以在 aclweb.org 上查找會議的“接受率”。提交很多但接受率很低,通常是說明會議質量好的一個指標。

最後,有許多組織會爲大學建立一個會議等級表。這些排名通常用於確定學者的資金,工資或工作機會。

Further

NLP Conferences Calendar

Reference

The Top 10 NLP Conferences

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章