灌水論文爲何氾濫？揭露機器學習領域殘酷現狀

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜

來源：新智元編輯：keyu

這幾年，AI的趨勢只增不減，每年各大機器學習會議開得那叫一個如火如荼，大家彷彿都對這個領域永遠充滿了旺盛的探索欲。

不過最近，對於機器學習會議出版的各種論文出現了質疑的聲音，並也獲得了不小的關注：

近日，Reddit上，一位出身於傳統工程領域的小哥發佈了一則帖子，上面記錄了他對近期機器學習出版論文的觀察：

「我注意到，有很多研究人員致力於諸如優化、控制、信號處理等“老”領域的交叉領域，他們會突然發表大量的聲稱要解決某個問題的論文。

而問題本身通常是最近產生的，有時會涉及到一些深度神經網絡。

然而，經過仔細檢查，這些論文唯一的新奇之處，是這個問題(通常是由其他不相關的團體提出的)，而不是研究人員提出的旨在解決這個問題的方法。

我很困惑，爲什麼大量看似「很弱」的論文，居然可以被接受。

接着，這位小哥發現了這些論文能投中會議的祕訣：

1.只發機器學習會議

這些研究小組只會在機器學習會議上發表文章(而不會在優化和控制會議/期刊上發表文章，而這些可能是他們工作的核心)。

例如，在一篇關於對抗機器學習的論文中，整篇論文實際上是關於解決一個優化問題的，但優化的算法基本上只是在其他前人優秀方法的基礎上稍微變化了一點而已。

此外，這位小哥還注意到，如果一篇論文沒有通過NeurIPS或ICLR，它們將被直接發送到AAAI和其他一些小型會議，在那裏它們將被接受。

所以，在這個領域裏，並沒有什麼東西被浪費掉。

2.審稿人們不知道發生了什麼

通過openreview，國外小哥發現審稿人(不僅僅是研究人員)對他們的特定領域一無所知，而似乎只會評論論文的正確性，而不是新穎性。

事實上，他懷疑審稿人自己是否知道這種方法的新穎性。

在這裏所說的新穎性，是指某項技術的最新發展是多麼新穎，尤其是當它與運籌學、優化、控制和信號處理相交叉時，而實際上，最先進的技術可能遠遠超乎了主流機器學習研究者的認知。

3.隨意引用

通常情況下，研究人員只會引用他們自己或過去幾年的“機器學習人”的文獻。

偶爾，會有一條引用來自於幾百年前的柯西、牛頓、傅里葉、古諾、圖靈、馮·諾伊曼等人，接着，又迴向後跳躍幾百年到2018年或者2019年。

所以，他們可能想表達：“這個問題在1930年被一些「名人」研究過，然後在2018年又被「某個傢伙」研究過很多次。”

4.數學公式的堆砌

通常，會有大量的數學公式，來證明一些關於特徵值、梯度、雅可比矩陣的深奧條件，以及關於他們研究問題的一些其他奇怪的事情(在其他深奧的假設下)。

還會有幾個定理，但是沒有一個是適用的，因爲在運行它們的高度非凸深度學習應用時，所有條件都被違反了。

因此，從這些複雜的定理+堆砌的數學公式中得到的唯一東西是「一些微弱的直覺」(然而馬上就會被違背)，接着什麼也沒說。

5.“被拋棄的技術”

這位國外小哥發現，某些技術在作者聲稱它擊敗了許多基準測試之後，似乎將會被拋棄，並永遠不會再使用。

機器學習研究人員似乎喜歡頻繁的跳過一些話題，所以這可能是其中一個願意。

但是，通常情況下，在其他領域，一旦一項技術被提出，同一組研究人員就會用多年來改進它，有時甚至貫徹了研究人員的整個職業生涯。

這位小哥表示：

「在某些方面,這使得某些機器學習區域就像一個迴音室，在那裏，研究人員正做着一些幾乎重複的事情，而這一點卻被問題的新奇性所掩蓋了。

這些論文被接受，因爲沒有人可以檢測論文本身真正的新穎性(或者，三個審稿人中只有一個會注意到)。

我只是覺得機器學習會議好像被當成了「自動收紙的搖錢樹」。

一石驚起千層浪，共鳴聲層出不窮：要麼發表，要麼滅亡？

這則帖子彷彿引起了大家的共鳴：

一個自稱是理論物理學家的網友回覆道：

「這就是當今理論物理學（和其他大多數『硬科學』學術研究的真實狀態。

“要麼發表，要麼滅亡”的心態根深蒂固。沒有人會在頭腦清醒的情況下嘗試解決實際困難和有意義的問題。只需要在這裏調整一個魔性的特徵，在那裏混合搭配一些方法，你的簡歷裏就會有一堆出版的論文了。

另外一個方面是，審查過程和所使用的方法缺少透明程度。比如一些半斤八兩的評論，讓學生替他們評論文章，以及一些政治原因等等。

用幾年的時間發表一篇可以實際解決科學問題的論文的時代已經一去不復返了。運氣越來越成爲一個幾乎比努力工作更重要的因素。

彼得·希格斯(因提出希格斯玻色子的存在和粒子獲得質量的機制而獲得諾貝爾獎)多次說過，按照現在的標準，他永遠不會成功。

還有網友曾經的研究方向是CNN，他表示：

「我曾經的工作是有關CNN的應用，然而，我們後來被告知說，需要添加一些數學公式，因爲這有助於在會議上被接受。

但是，實際上，這些方程式根本沒有任何作用，既證明不了什麼新東西，也沒有提供額外的見解，而僅僅只是基本描述了用矩陣表示的深度學習。

在我度過的其他論文中，我經常看到非常複雜的數學公式，如果你花一個小時去理解它，最後的結果其實用一小行話就可以描述出來。這很可悲。

這導致我在剛開始非常沮喪，認爲自己永遠都不會擅長數學。

的確，我可能的確不擅長，但是這些論文做的也並不是數學。

在數學公式的應用上，一位研究氣候變化的工程博士也有共鳴：

「“堆砌的數學公式”是很普遍的一點。我們經常被明確告知，需要用希臘字母寫出各種難以理解的數學公式，因爲這樣可以令論文看起來更好。

“要麼發表，要麼滅亡”是學術圈殘酷的毒瘤。」

還有網友吐槽了各種對已有模型的魔改論文：

「此外，略好一些的SOTA“之類的論文，除了一些參數調整或者向DNN添加額外的層之外，沒有提出任何新穎的方法或者方面，並且閱讀起來也非常累人，最後卻被會議接受了。

堆砌的數學公式的存在，只是爲了提供一種嚴謹感和新奇感，並掩蓋了缺乏實際創新能力的本質。

當然，對已有方法進行迭代是正常的，但是在機器學習領域下，很多論文都感覺好像是在並沒有完全理解所提出方法爲何有效的情況下進行了邊際的改進。」

結語

的確，每年大量的機器學習會議，接受着大量的論文投稿，而這每年數萬篇描述「學術進展」的論文中，到底有多少真正的發現？大家怎麼看？

參考資料：

https://old.reddit.com/r/MachineLearning/comments/lvwt3l/d_some_interesting_observations_about_machine/?continueFlag=fda64e8f42a755bfacf4adb76ec61c23

 
    
    
    
  
     
     
     
 
    
    
    
 
    
    
    
     
     
     
  也可以加一下老胡的微信
 
    
    
    
 
    
    
    
     
     
     
  圍觀朋友圈~~~
 
    
    
    



   
   
   
 
    
    
    
  
     
     
     
   
      
      
      
    
       
       
        
         
          
          推薦閱讀 
          
         
         
         （點擊標題可跳轉閱讀） 
         
         
          
           
            
            我愛線代，線代使我快樂 
            麻省理工學院計算機課程【中文版】
 
            【清華大學王東老師】現代機器學習技術導論.pdf
 
            機器學習中令你事半功倍的pipeline處理機制
 
            機器學習避坑指南：訓練集/測試集分佈一致性檢查 
            機器學習深度研究：特徵選擇中幾個重要的統計學概念 
            
           
          
         
       
   
      
      
      
  
     
     
     
 
    
    
    

   
   
   
老鐵，三連支持一下，好嗎？↓↓↓

本文分享自微信公衆號 - 機器學習算法與Python實戰（tjxj666）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

灌水論文爲何氾濫？揭露機器學習領域殘酷現狀

MySQL 分庫分表方案，總結太全了。。

Qt/C++音視頻開發71-指定mjpeg/h264格式採集本地攝像頭/存儲文件到mp4/設備推流/採集推流

WPF開源輕便、快速的桌面啓動器

【機器學習】爲什麼神經網絡能工作？爲什麼它們經常不起作用？

清華大學力作！一個「PPT」框架，讓超大模型調參變簡單

【Python工具箱】自動可視化任何數據集！！！

機器學習基礎篇：支持向量機（SVM）理論與實踐

Python從青銅到王者，這5個實戰項目要會！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結