2018 年 8 月以來 5 個最好的機器學習 GitHub 項目和 Reddit 熱帖

原文:The 5 Best Machine Learning GitHub Repositories & Reddit Threads from August 2018


2018 年 8 月以來 5 個最好的機器學習 GitHub 項目和 Reddit 熱帖

PRANAV DAR, SEPTEMBER 2, 2018

前言

當我去年年初開始使用 GitHub 時,我從來沒有想過它對我來說有多麼有用。最初我只是用它來上傳我自己的代碼,以爲這就是 GitHub 所能做到的有用的程度了。但當我加入了 Analytics Vidhya,並且我的研究範圍擴大後,我被這個平臺實際上的巨大規模所吸引。

除了允許我訪問像谷歌、微軟、英偉達、Facebook 等頂級公司的開源代碼和項目,它還提供了與機器學習愛好者合作現有項目的渠道。我無法告訴你,爲別人使用的項目做出貢獻是多麼令人驚訝。這是一種獨一無二的感覺。當然,這也促使我寫了這個月刊系列,我希望你們在自己的工作中有所收穫。

這個月的文章包含了一些很好的倉庫。NVIDIA有一個項目是研究視頻到視頻的翻譯,它是一個簡潔的谷歌庫,使強化學習方法比以前更容易學習,我還添加了一個有用的自動對象檢測庫。下面還有大量的信息,包括一個有趣的 R 語言包。

在我們的 Reddit 部分,我們有各種各樣的討論,從 Julia 的多專家評論到現實生活中的數據泄漏故事。作爲一名數據科學家,你需要在任何時候都處於比賽的頂端,這包括跟進所有最新的進展。Reddit 和 AVBytes 絕對應該出現在你的首選列表中。

你可以看看 GitHub 的頂級存儲庫和 Reddit 的頂級討論(從四月開始),我們每個月都在下面討論:

GitHub Repositories

NVIDIA’s vid2vid 技術

圖像到圖像的翻譯領域已經取得了巨大的進步。然而,視頻處理領域近年來鮮有突破。直到現在。

英偉達(NVIDIA)已經在利用深度學習技術進行圖像和視頻處理方面處於領先地位,它開源了一種從視頻到視頻的翻譯技術,其結果令人震驚。他們已經在 GitHub 上開源了他們的代碼,所以你現在就可以開始使用這種技術了。代碼是 vid2vid 的 PyTorch 實現,你可以利用它來:

  • 將語義標籤轉換爲現實世界的視頻
  • 爲合成從人類交談到映射圖的內容創建多個輸出
  • 從一個特給定的姿勢生成一個人類身體(不僅僅是結構,而是整個身體!)

這裏查看我們對這個庫的介紹。

Dopamine by Google

如果你在強化學習領域工作或研究過,你就會知道復現現有的方法有多難(如果不是不可能的話)。Dopemine 是一個已經創建和開源的 TensorFlow 框架,它被寄予能加快這一領域的進展,使其更靈活和可復現的希望。

如果你一直想學習強化學習,但又被它的複雜程度嚇到了,那麼這個庫就是一個珍貴的機會。僅有 15 個 Python 文件,代碼附帶詳細的文檔和免費數據集!

您還可以在這裏閱讀更多關於這個庫。

自動目標檢測

在深度學習社區中,對象檢測正在蓬勃發展,但對於新手來說,這可能是一個艱鉅的挑戰。要映射多少像素和幀數?如何提高一個非常基本的模型的準確性?甚至你從哪裏開始?你不用再爲這個煩惱了——多虧了麻省理工學院的算法,它能以驚人的精度自動檢測目標。

他們的方法被稱爲「語義軟分割(Semantic Soft Segmentation, SSS)」。原本需要一個專業人士花費 10 分鐘來手工編輯的內容,你現在可以在幾秒鐘內完成!上面的圖片很好地說明了這個算法是怎麼工作的,以及在機器上實現它時的外觀。

這裏更詳細地查看我們對該技術的介紹。

人體姿態估計

姿態估計今年吸引了大量研究人員的興趣,像麻省理工學院這樣的出版物也發表了在這一領域取得進展的研究報告。從幫助老年人接受正確的治療到商業應用,比如讓一個人虛擬跳舞,姿態估計將成爲商業上的下一個最好的東西。

這個庫是微軟的流行論文——簡單的人類姿態估計和跟蹤的基線的官方 PyTorch 實現。他們提供的基準模型和基準足夠好,有希望能在這一研究領域激發新的想法。

Chorrrds

這個是給所有 R用 戶的。我們通常從 CRAN 那裏下載 R 包,所以我個人覺得沒有必要去 GitHub,但是這個包我覺得很有趣。chorrrds 幫助你提取、分析和組織音樂和絃。它甚至預裝了一些音樂數據集。

實際上,您可以直接從 CRAN 安裝它,或者使用 devtools 包從 GitHub 下載它。在這篇文章中,您將瞭解更多關於如何做到這一點的信息,以及更多細節。

Reddit Discussions

OpenAI Five 輸掉了他們的第一場職業 Dota 比賽

你可能在過去的幾個月裏沒有關注過 OpenAI。他們的團隊一直在努力宣傳他們的最新創新——OpenAI Fivem,這是一個由 5 個神經網絡組成的團隊,他們共同努力,以在玩 Dota 上變得更好爲目標。這些神經網絡做得非常好,一直到他們遇到了第一支職業 Dota 團隊。

Reddit 的這篇文章從各個角度來看待球隊的失敗,而機器學習的觀點真的很突出。即使你還沒有讀過他們的研究論文,這篇文章也有足夠的信息讓你快速瞭解。關於這個話題,有超過 100 條評論,一個真正豐富知識的討論。

用 Notebook 完成機器學習任務的不同觀點

譯者注:這裏的 Notebook 即指 Jupyter Notebooks

在數據科學和機器學習領域,我們中的大多數人都使用 Notebook 來完成各種任務,比如數據清理、模型構建等。實際上,我還沒有遇到過在數據科學的旅程中沒有使用 Notebook 的人。我們通常不會質疑這些 Notebook 的侷限性,不是嗎?

現在我們來看看爲什麼 Notebook 並不像我們想象的那麼有用。確保您瀏覽整個討論,有一些來自數據科學家同行的好奇和深刻的評論。另外,你還可以看看製作精良的演示文稿。

TensorFlow 2.0 即將到來

TensorFlow 2.0 幾周前被谷歌提出,預計將在未來幾個月發佈。這條線索既有趣又嚴肅。來自世界各地的 TensorFlow 用戶給出了他們所期望的,以及他們想看到的添加。相當多的評論圍繞着 Eager Execution 的有用性展開。

Eager Execution:TensorFlow 的即時執行(Eager Execution)是一個重要的編程環境,它可以立即評估操作,而不需要構建圖表:即操作返回具體的值,而不是構建一個計算圖稍後運行。這使得開始使用 TensorFlow 和調試模型變得很容易,同時也減少了樣板文件。

這是一個期待已久的更新,是一件被期待的大事。谷歌會發布嗎?

Julia 在機器學習上的評論

有人寫了一些關於 Julia 將來如何取代 Python 的文章之後,最近這一語言在社交媒體上廣爲流傳。我收到過評論該語言的請求,並將每個人都引導到這個帖子。還有什麼地方比一個核心 ML Reddit 帖子更能檢驗編程語言的優缺點呢?

除了閱讀一個視角,您還可以訪問多個評論,每個評論都添加了一個獨特的觀點。我喜歡這個討論的地方是,許多現有的 Julia 用戶已經添加了他們的 2 美分。人們的共識似乎是,它顯示出了很多希望(尤其是最新版本 Julia 1.0),但它在趕上 Python 之前還有一段時間。

現實 ML 項目中的數據泄漏事件

我們都在努力解決現實世界中的問題,而我們往往會忘記在現有項目中可能出現的問題。您可能會對人們在這裏講述的故事感到驚訝——其中一個故事中,他們對一行有重複的條目,這使得模型大量超出了訓練數據。對於行業中出現的數據泄漏問題,還有一些有用的鏈接供您進一步閱讀。

你曾經是數據泄露的受害者嗎?在這個 Reddit 帖子上分享你的故事並參與討論吧!

結束語

以上是原文翻譯過來的,這些話題都是挺吸引人的。對於 GitHub 項目的更多介紹,基於篇幅關係,沒有完全翻譯,但我們都留了鏈接,你可以戳進去查閱原文,或者如果你對於其中某一篇感興趣,希望我們可以翻譯,可以留言讓我們知道!


此外,如果你想了解更多關於人工智能的資訊,歡迎掃碼關注微信公衆號以及知乎專欄 「譯智社」,我們爲大家提供優質的人工智能文章、國外優質博客和論文等資訊喲!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章