各類監督方法流行趨勢分析

摘要: 想知道目前最流行的監督學習方法是哪一類嗎?本文統計每種類型的出版物數量的歷史數據回答了該問題,一睹爲快吧!

又到一年的年末了,到了進行總結並展望來年的時候了,在這裏預祝各位新的一年順利。閒話少敘,本文將對有監督學習方法進行總結。

機器學習領域在過去幾十年中經歷了巨大的變化,不可否認的是,雖然有些方法已經存在了很長時間,但仍然是該領域的主要內容。例如,最小二乘法( least squares)的概念在19世紀早期由勒讓德和高斯提出,最基本的形式的神經網絡( neural networks)早在1958年就引入的,並在過去的幾十年中大幅提升、支持向量機(SVM)等方法則更是較新的方法,這些方法仍然佔據了機器學習領域應用中的半壁江山。

 隨着科研的進行,有大量可用的監督學習方法被髮明。使用者通常會提出以下問題:什麼是最好的模型?衆所周知,這個問題沒有標準答案,因爲模型的有用性取決於手頭的數據以及具體處理的問題,合適的就是最好的。那麼,可以轉換下思路,換成這個問題:最受歡迎的模型是什麼?這將是本文的關注點。

衡量機器學習模型的流行程度

出於本文的目的,使用頻率論方法定義流行度。更確切地說,將使用提及個人監督學習模型的科學出版物的數量表示受歡迎的程度。當然,這種方法有一些限制:

  • 可能有比出版物數量更準確的表示方法;
  • 分析受所使用的搜索術語的影響;
  • 文獻數據庫並不完美;

因此,對於這篇文章進行了兩次分析。第一個分析是對出版頻率的縱向分析,而第二個分析則比較了不同領域與機器學習模型相關的出版物總數。

在第一次分析中,通過從谷歌學術搜索中搜索數據來確定出版物的數量,該數據考慮出版物的標題和摘要。爲了確定與個人監督學習方法相關的出版物數量,統計1950年至2017年期間谷歌學術搜索的點擊次數。由於抓取谷歌學術的數據非常困難,所以本文參考ScrapeHero提供的有用建議來收集數據。

在分析中包含了13種監督方法:神經網絡、深度學習、SVM、隨機森林、決策樹、線性迴歸、邏輯迴歸、泊松迴歸、嶺迴歸、套索迴歸( lasso regression)、k-最近鄰、線性判別分析、以及對數線性模型。其中,對於套索迴歸,搜索時考慮了 lasso regression和套lasso model ;對於最近鄰方法,搜索時術語有k-nearest neighbor和k-nearest neighbour,得到的數據集表示從1950年到現在,每個監督模型相關的出版物的數量。

從1950年到現在使用的監督模型

爲了分析縱向數據,將時間段劃分爲兩個時期:機器學習的早期階段(1950年至1980年),幾乎沒有可用模型;以及形成時期(1980年至今),開發了許多新模型。

早期:線性迴歸佔優勢

圖1 早期機器學習時期

從圖1中可以看出,線性迴歸是1950年至1980年間的主導方法。相比之下,科學文獻中極少提及其他機器學習模型。然而,從20世紀60年代開始,可以看到神經網絡和決策樹的普及開始增長。此外,還可以看到邏輯迴歸尚未廣泛應用,在20世紀70年代末的數量僅略有增加。

圖2 形成機器學習時期

形成年代:神經網絡的多樣化和興起

圖2表明,從20世紀80年代後期開始,出版物中提到的監督模型變得更加多樣化。重要的是,文獻中提到的機器學習模型的比率一直穩步增加,直到2013年。該圖具體顯示了線性迴歸、邏輯迴歸和神經網絡的普及。正如之前所見,線性迴歸在1980年之前已經流行。然而,從1980年開始,神經網絡和邏輯迴歸的普及開始迅速增長。雖然邏輯迴歸的流行度在2010年達到頂峯,該方法幾乎變得像線性迴歸一樣受歡迎,但近年來,神經網絡和深度學習的流行程度甚至超過了2015年線性迴歸的流行程度。

神經網絡已經變得非常受歡迎,因爲它們已經在機器學習應用方面取得了突破,例如圖像識別(ImageNet,2012)、人臉識別(DeepFace,2014)和遊戲(AlphaGo,2016)等。來自谷歌學術的數據表明,文章中提到神經網絡的頻率在過去幾年中略有下降(圖2中未顯示)。這可能是因爲術語深度學習(多層神經網絡)在某種程度上取代了術語神經網絡的使用。

另外可以看到,稍微不那麼受歡迎的監督方法是決策樹和SVM。與前三種方法相比,提到這些方法的頻率明顯較小。另一方面,文獻中提到這些方法的頻率似乎也有較小的波動。值得注意的是,決策樹和SVM的流行度都沒有下降。在決策樹和SVM之間,SVM似乎表現出更有利的增長趨勢,因爲SVM在發明後僅僅15年就成功超越了決策樹。

不同領域的監督學習模型的受歡迎程度

在第二個分析中,想調查不同的領域是否依賴於不同的機器學習技術。爲此,查詢了三個科學出版物庫:谷歌學術出版物、計算機科學出版物的dblp和生物醫學科學出版物的PubMed。在三個庫中統計了13個機器學習模型的命中頻率。結果如圖3所示。

圖3 機器學習領域

圖3表明,許多方法對各個領域都非常具體,下面分析每個領域中最流行的模型。

整體使用監督學習模型

根據谷歌學術搜索表明,最常用的五種監督模型如下所示:

  • 線性迴歸: 3,580,000(34.3%)篇論文;
  • 邏輯迴歸:2,330,000(22.3%)篇論文;
  • 神經網絡: 1,750,000(16.8%)篇論文;
  • 決策樹: 875,000(8.4%)份論文;
  • 支持向量機:684,000(6.6%)篇論文;

總體而言,線性模型顯然占主導地位,佔監督模型的統計率的50%以上。單非線性方法並不落後:神經網絡佔所有論文的16.8%,其次是決策樹(8.4%的論文)和SVM(6.6%的論文)。

在生物醫學科學中使用模型

根據PubMed,在生物醫學科學中,最受歡迎的五種機器學習模型如下所示:

  • 邏輯迴歸: 229,956(54.5%)篇論文;
  • 線性迴歸: 84,850(20.1%)篇論文;
  • Cox迴歸: 38,801(9.2%)篇論文;
  • 神經網絡: 23,883(5.7%)篇論文;
  • 泊松迴歸: 12,978(3.1%)篇論文;

在生物醫學科學中,可以看到與線性模型相關的提及次數偏多:五種最流行的方法中有四種是線性的,這可能是由於兩個原因造成的。首先,在醫療環境中,樣本數量通常太小,無法擬合複雜的非線性模型。其次,模型解釋結果的能力對醫療應用至關重要。由於非線性方法通常難以解釋,因此它們不太適合醫療應用。

邏輯迴歸在PubMed數據庫中的流行可能是由於大量出版物的臨牀研究。在這些研究中,通常使用邏輯迴歸分析分類結果(即治療成功),因爲它非常適合於解釋特徵對結果的影響。Cox迴歸在PubMed數據庫中也非常流行,因爲它常用於分析Kaplan-Meier生存數據。

在計算機科學中使用的模型

從dblp中檢索到,計算機科學書目中最受歡迎的五個模型是:

  • 神經網絡: 63,695(68.3%)篇論文;
  • 深度學習: 10,157(10.9%)篇論文;
  • 支持向量機: 7,750(8.1%)篇論文;
  • 決策樹: 4,074(4.4%)篇論文;
  • 最近鄰居: 3,839(2.1%)篇論文;

計算機科學出版物中提到的機器學習模型的分佈是截然不同的:大多數出版物似乎都涉及最近的非線性方法(例如神經網絡、深度學習和支持向量機),如果將深度學習算作神經網絡的一種,則超過四分之三的檢索計算機科學出版物都涉及神經網絡。

行業之間的差別

圖4 不同領域的ML模型類型

圖4總結了文獻中提到的參數和非參數模型的百分比。柱形圖表明,在機器學習研究中調查的模型(計算機科學出版物)和應用的模型類型(生物醫學和整體出版物)之間存在很大差異。雖然超過90%的計算機科學出版物涉及非參數模型,但大約90%的生物醫學出版物涉及參數模型,這表明機器學習研究主要集中在最先進的方法,如深度神經網絡,而機器學習的用戶往往依賴於更多可解釋的參數模型,如邏輯迴歸等。

總結

對科學文獻中有監督學習模型的流行度分析表明了人工神經網絡的受歡迎程度。但是,也看到不同的領域使用不同類型的機器學習模型。特別是生物醫學科學的研究人員仍然嚴重依賴參數模型,但這種情況逐漸在發生改變,隨着可解釋模型的研究更加深入,更復雜的模型一定會在生物醫學領域得到廣泛應用。



本文作者:【方向】

閱讀原文

本文爲雲棲社區原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章