2018年Github最受歡迎機器學習語言Python穩坐冠軍,numpy、scipy是最受歡迎軟件包

在 GitHub 2018 年的 Octoverse 報告中,機器學習和數據科學是 GitHub 上的熱門話題。其中,tensorflow / tensorflow 是項目貢獻最多的項目之一,pytorch / pytorch 是增長最快的項目之一,而 Python 是 GitHub 上第三大最受歡迎的語言。於是,GitHub 決定更加深入地研究一下,機器學習和數據科學在該平臺究竟是怎樣的情況。

GitHub 提取了 2018 年 1 月 1 日到 2018 年 12 月 31 日之間的貢獻數據。這些貢獻可能包括推送代碼、發起話題或提取請求、評論問題或提取請求,以及審查拉取請求。對於大多數導入的程序包,GitHub 使用了從依賴關係圖中獲得的數據,其中包括所有公共存儲庫和已選擇加入依賴關係圖的所有私有存儲庫。

機器學習編程語言:Python 穩坐冠軍

image

GitHub 以使用“機器學習”主題標記的存儲庫的貢獻者爲依據,對存儲庫中最常見的主要編程語言進行了排名。結果顯示,Python 是機器學習庫中最常用的語言,也是 GitHub 上第三種最常用的語言。然而,並非所有機器學習項目都使用 Python:GitHub 上還有其他一些最常見的機器學習通用語言,如 C ++、JavaScript、Java、C#、Shel l和 TypeScript 躋身 GitHub 編程語言 Top10,同時是機器學習項目的 Top10 語言。Julia、R 和 Scala 都出現在機器學習項目編程語言的前 10 名,但未上榜 GitHub 整體最受歡迎編程語言 Top10。Julia 和 R 都是數據科學家常用的語言,Scala 在 與 Apache Spark 等大數據系統交互時變得越來越常用。

最受歡迎機器學習和數據科學包:numpy、scipy、pandas佔據前三

image

我們從依賴圖中提取數據,以計算導入流行 Python 包的機器學習或數據科學項目的百分比。上表爲項目導入最多程序包 Top10 排名。我們發現:

  • Numpy,一個支持多維數據數學運算的軟件包,是導入最多的軟件包,近四分之三的機器學習和數據科學項目使用此包。
  • Scipy,一個用於科學計算的軟件,pandas,一個用於管理數據集的軟件包,以及可視化庫matplotlib,都在超過 40% 的機器學習和數據科學項目中使用。
  • Scikit-learn 是一種流行的機器學習包,包含大量機器學習算法的實現,近 40% 的項目使用此包。
  • Tensorflow 是一種用於處理神經網絡的軟件包,近四分之一的項目使用。

前十名中其他的包均爲實用程序包:排名第六的是 Python 2和3兼容性庫,python-dateutilpytz 是用於處理日期的包。

最受歡迎的機器學習項目:Tensorflow

image

2018年,帶有“機器學習”標籤、貢獻最多的開源項目爲 Tensorflow,是迄今爲止最受歡迎的機器學習項目,且其貢獻者數量是第二大受歡迎項目 scikit-learn 的五倍多。排名第三和第九的 explosion/spaCy/ spaCy 和 RasaHQ / rasa_nlu 是兩個專注於自然語言處理問題的項目。另外四個項目,CMU-Perceptual-Computing-Lab / openpose,thtrieu / darkflow,ageitgey / face_recognition和tesseract-ocr / tesseract 則專注於圖像處理。另外,Julia 語言源代碼也是 2018 年項目貢獻最多的項目之一。

原文鏈接:
https://github.blog/2019-01-24-the-state-of-the-octoverse-machine-learning/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章