發展70年,最好的監督學習模型長啥樣?

機器學習領域在過去幾十年中發生了巨大的變化。不可否認,有一些方法已經存在了很長時間,並且仍然是該領域的“常青樹”。例如,19世紀早期勒讓德和高斯提出的最小平方概念。其他方法,如神經網絡,初步形成於1958年,並在過去的幾十年中名聲大噪,支持向量機則是更“年輕”一些的概念。

既然有這麼多的監督學習方法,我們不免產生一個疑問:什麼是最好的模型?衆所周知,這個問題很難回答,因爲正如 George Box 所說,所有的模型是錯誤的,但有些是有用的。實際上,模型的有用性關鍵還是在於手頭的數據。因此,這個問題沒有標準答案。但另一個問題就容易回答得多:哪些模型最受歡迎?本文就是要解答這個疑問。

更多幹貨內容請關注微信公衆號“AI前線”(ID:ai-front)

衡量機器學習模型的受歡迎程度

爲了解答這個問題,我將使用頻率論方法定義機器學習模型的受歡迎程度。更確切地說,是使用提及個人監督學習模型的科學出版物的數量來代表不同模型的受歡迎程度。當然,這種方法有一些不足之處:

  • 也許有比出版物數量更準確表達受歡迎程度的方法。例如,出版物中批評某個模型並不一定意味着該模型很受歡迎。

  • 搜索術語會影響分析結果。爲了確保準確性,我的搜索將不包括模型的縮寫,因此搜索結果不一定涵蓋所有模型。此外,分析中未考慮的搜索項模型的存在感可能較低。

  • 文獻數據庫並不完美:有時,出版物存儲的元數據不正確(例如不正確的年份),或者可能存在重複的出版物。因此,出版頻率可能會有一些水分。

這篇文章中,我將從兩個方面進行分析。第一個方面是對出版頻率的縱向分析,第二個方面則比較了不同領域中機器學習模型相關出版物的總數。

在第一個分析中,我使用了 Google Scholar,檢索科學出版物的標題和摘要得到出版物的數量。爲了確定與每種監督學習方法相關的出版物數量,我統計了 1950 年至 2017 年期間 Google Scholar 搜索的點擊次數。由於Google Scholar 的數據抓取非常困難,我依靠ScrapeHero提供的有用建議來收集數據。

我在分析中包括了以下 13 種監督方法:神經網絡、深度學習、SVM、隨機森林、決策樹、線性迴歸、邏輯迴歸、泊松迴歸、嶺迴歸、套索迴歸、k-最近鄰、線性判別分析,以及對數線性模型。請注意,對於套索迴歸,我用了套索迴歸和套索模型兩個術語。對於最近鄰,我用了k-nearest neighbor 和 k-nearest neighbour 。得到的數據集表示從 1950 年到目前爲止,與每個監督模型相關的出版物的數量。

1950年至今的監督模型

爲了分析縱向數據,我把時間分爲兩個時間段:機器學習的早期階段(1950 年至 1980 年),這段時間內幾乎沒有模型可用,以及形成時期(1980 年至今),人們對機器學習的興趣激增,許多新模型被開發出來。請注意,以下可視化圖僅顯示了相關性最強的方法。

早期:線性迴歸爲主流

image

圖1 早期機器學習
從圖 1 可以看出,線性迴歸是 1950 年至 1980 年間的主流方法。相比之下,科學文獻中極少提及其他機器學習模型。然而,從 20 世紀 60 年代開始,我們可以看到神經網絡和決策樹開始普及。我們還可以看到,邏輯迴歸尚未得到廣泛應用,而在 20 世紀 70 年代末,提到這種方法的文獻數量僅略有增加。

image

圖2 機器學習形成時期

形成時期:神經網絡的多樣化和興起

圖 2 表明,從 20 世紀 80 年代後期開始,科學出版物中提到的監督模型變得更加多樣化。重要的是,直到 2013 年,科學文獻中提到的機器學習模型的比率一直穩步增加。該圖顯示,線性迴歸、邏輯迴歸和神經網絡的普及明顯加速。正如我們之前所見,線性迴歸已經成爲一種流行的監督學習方法。然而,1980 年,神經網絡和邏輯迴歸的普及開始迅速增長。雖然邏輯迴歸的普及在 2010 年達到頂峯,受歡迎程度不亞於線性迴歸,2015 年,神經網絡和深度學習(圖 2 中的曲線神經網絡/深度學習)的受歡迎程度甚至超過了線性迴歸。

神經網絡已經變得非常受歡迎,因爲其已經在機器學習應用方面取得了突破,例如圖像識別(ImageNet,2012)、人臉識別(DeepFace,2014)和遊戲(AlphaGo,2016)。來自Google Scholar 的數據表明,科學文獻中提到神經網絡的頻率在過去幾年中略有下降(圖 2 未顯示)。這可能是因爲術語“深度學習”(多層神經網絡)在某種程度上取代了術語“神經網絡”。使用 Google Trends 搜索結果相同。

其他受歡迎程度稍差的監督學習方法是決策樹和 SVM。與前三種方法相比,提到這些方法的速率明顯較小。另一方面,文獻中提到這些方法的頻率似乎波動也較小。值得注意的是,決策樹和SVM 的流行度都沒有下降。這與其他方法(如線性和邏輯迴歸)形成對比,後者的提及次數在過去幾年中大幅減少。決策樹和 SVM 相比,SVM 的提及率增長趨勢更好,因爲 SVM 在現世後僅 15 年,就成功超越了決策樹。

上述機器學習模型的提及次數在 2013 年達到頂峯(589803 種出版物),並且自那時起略有下降(2017 年爲 462045 種出版物)。

跨領域的監督模型受歡迎程度

在第二個分析中,我想調查瞭解不同的社區是否依賴於不同的機器學習技術。爲此,我依靠三個科學出版物庫:Google Scholar 對應一般出版物,dblp 對應計算機科學出版物,PubMed 對應生物醫學科學出版物。在三種類型的存儲庫中,我確定了 13 個機器學習模型的命中頻率。結果如圖 3 所示。

image

圖3 機器學習領域
圖 3 表明,不同領域使用的方法都非常具體。在下文中,我們來分析一下每個領域中最流行的模型。

整體使用監督學習模型

根據 Google Scholar,以下爲最常用的五種監督模型:

  • 線性迴歸:3,580,000(34.3%)篇論文

  • Logistic迴歸:2,330,000(22.3%)篇論文

  • 神經網絡:1,750,000(16.8%)篇論文

  • 決策樹:875,000(8.4%)篇論文

  • 支持向量機:684,000(6.6%)篇論文

總體而言,線性模型顯然占主導地位,佔統計監督模型的50%以上。非線性方法也並不落後:神經網絡佔所有論文的16.8%,其次是決策樹(8.4% 的論文)和SVM(6.6% 的論文)。

在生物醫學科學中使用模型

根據 PubMed,生物醫學科學中最受歡迎的五種機器學習模型是:

  • Logistic 迴歸:229,956(54.5%)篇論文

  • 線性迴歸:84,850(20.1%)篇論文

  • Cox 迴歸:38,801(9.2%)篇論文

  • 神經網絡:23,883(5.7%)篇論文

  • 泊松迴歸:12,978(3.1%)篇論文

在生物醫學科學中,我們看到線性模型相關的提及次數非常多:五種最流行的方法中有四種是線性模型。這可能是由於兩個原因造成的。首先,在醫療環境中,樣本數量通常太小,無法擬合複雜的非線性模型。其次,解釋結果的能力對醫療應用至關重要。由於非線性方法通常難以解釋,因此它們不太適合醫療應用,因爲僅靠高預測性能通常是不夠的。

PubMed 數據中 LogMed 迴歸受歡迎可能是因爲大量臨牀研究出版物。在這些研究中,通常使用邏輯迴歸分析分類結果(即治療成功),因爲它非常適合於解釋特徵對結果的影響。請注意,Cox 迴歸在 PubMed 數據中非常流行,因爲它經常用於分析 Kaplan-Meier 生存數據。

計算機科學使用的模型

從 dblp 中檢索到的計算機科學書目中最受歡迎的五個模型是:

  • 神經網絡:63,695(68.3%)篇論文

  • 深度學習:10,157(10.9%)篇論文

  • 支持向量機:7,750(8.1%)篇論文

  • 決策樹:4,074(4.4%)篇論文

  • 最近鄰:3,839(2.1%)篇論文

計算機科學出版物中提到的機器學習模型的分佈是截然不同的:大多數出版物似乎都提及更新的非線性方法(例如神經網絡、深度學習和支持向量機)。如果我們把深度學習包含進去,檢索中提及神經網絡的比例超過四分之三。

社區之間情況迥異

image

圖4不同領域的ML模型類型

圖4總結了文獻中提到的參數(包括半參數)和非參數模型的百分比。條形圖表明,在機器學習研究中調查的模型(計算機科學出版物表明)和應用的模型類型(生物醫學和整體出版物表明)之間存在很大差異。超過 90% 的計算機科學出版物涉及非參數模型,然而大約 90% 的生物醫學出版物提及參數模型。這表明,機器學習研究主要集中在最先進的方法,如深度神經網絡,而機器學習的用戶往往依賴於更多可解釋的參數模型。

總結

對科學文獻中各種監督學習模型的提及率分析表明,人工神經網絡已非常流行。但是,我們也看到,不同領域應用了不同類型的機器學習模型。特別是生物醫學科學的研究人員仍然嚴重依賴參數模型。觀察更復雜的模型是否會在生物醫學領域得到廣泛應用,或者這些模型是否根本不適合在該領域某些場景中應用將會是一件有趣的事(例如,模型缺乏解釋性,或者樣本量較小時泛化能力較弱)。

原文鏈接:

https://www.kdnuggets.com/2018/12/supervised-learning-model-popularity-from-past-present.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章