2018年AI和ML(NLP、計算機視覺、強化學習)技術總結和2019年趨勢(下)

摘要: 回顧2018,展望2019,計算機科學技術繼續前進!

4、工具和庫

工具和庫是數據科學家的基礎。我參與了大量關於哪種工具最好的辯論,哪個框架會取代另一個,哪個庫是經濟計算的縮影等等。

但有一點共識--我們需要掌握該領域的最新工具,否則就有被淘汰的風險。 Python取代其他所有事物並將自己打造成行業領導者的步伐就是這樣的例子。 當然,其中很多都歸結爲主觀選擇,但如果你不考慮最先進的技術,我建議你現在開始,否則後果可能將不可預測。那麼成爲今年頭條新聞的是什麼?我們來看看吧!

PyTorch 1.0

什麼是PyTorch?我已經多次在本文中提到它了,你可以在Faizan Shaikh的文章中熟悉這個框架

這是我最喜歡的關於深度學習文章之一!當時TensorFlow很緩慢,這爲PyTorch打開了大門快速獲得深度學習市場。我在GitHub上看到的大部分代碼都是PyTorch實現的。這並非因爲PyTorch非常靈活,而是最新版本(v1.0)已經大規模應用到許多Facebook產品和服務,包括每天執行60億次文本翻譯。PyTorch的使用率在2019年上升,所以現在是加入的好時機。

AutoML—自動機器學習

AutoML在過去幾年中逐漸取得進展。RapidMiner、KNIME、DataRobot和H2O.ai等公司都發布了非常不錯的產品,展示了這項服務的巨大潛力。你能想象在ML項目上工作,只需要使用拖放界面而無需編碼嗎?這種現象在未來並不太遙遠。但除了這些公司之外,ML / DL領域還有一個重要的發佈-Auto Keras!

它是一個用於執行AutoML任務的開源庫。其背後的目的是讓沒有ML背景的領域專家進行深度學習。請務必在此處查看,它準備在未來幾年內大規模運行。

TensorFlow.js-瀏覽器中的深度學習

我們一直都喜歡在最喜歡的IDE和編輯器中構建和設計機器學習和深度學習模型。如何邁出一步,嘗試不同的東西?我將要介紹如何在你的網絡瀏覽器中進行深度學習!由於TensorFlow.js的發佈,已成爲現實。

TensorFlow.js主要有三個優點/功能:

1.使用JavaScript開發和創建機器學習模型;

2.在瀏覽器中運行預先存在的TensorFlow模型;

3.重新創建已有的模型;

2019年的AutoML趨勢

我個人特別關注AutoML,爲什麼?因爲我認爲未來幾年它將成爲數據科學領域真正的遊戲規則改變者。跟我有同樣想法的人是H2O.ai的Marios Michailidis、Kaggle Grandmaster,他們都對AutoML有很高期望:

機器學習繼續成爲未來最重要的趨勢之一,鑑於其增長速度,自動化是最大化其價值的關鍵,是充分利用數據科學資源的關鍵。它可以應用到的領域是無限的:信用、保險、欺詐、計算機視覺、聲學、傳感器、推薦、預測、NLP等等,能夠在這個領域工作是一種榮幸。AutoML趨勢:

  1. 提供智能可視化和解釋,以幫助描述和理解數據;
  2. 查找/構建/提取給定數據集的更好特徵;
  3. 快速建立更強大/更智能的預測模型;
  4. 通過機器學習可解釋性彌補這些模型的黑匣子建模和生產之間的差距;
  5. 促進這些模型落地生產;

5、強化學習

如果我不得不選擇一個我看到的滲透更多領域的技術,那就是強化學習。除了不定期看到的頭條新聞之外,我還在社區中瞭解到,它太注重數學,並且沒有真正的行業應用程序可供專一展示。

雖然這在某種程度上是正確的,但我希望看到的是明年更多來自RL的實際用例。我在每月GitHub和Reddit排序系列中,我傾向於至少保留一個關於RL的存儲庫或討論,至少圍繞該主題的討論。

OpenAI已經發布了一個非常有用的工具包,可以讓初學者從這個領域開始。

OpenAI在深度強化學習中的應用

如果RL的研究進展緩慢,那麼圍繞它的教育材料將會很少。但事實上,OpenAI已經開放了一些關於這個主題的精彩材料。他們稱這個項目爲“Spinning Up in Deep RL”,你可以在這裏閱讀所有相關內容。它實際上是非常全面RL的資源列表,這裏有很多材料包括RL術語、如何成爲RL研究者、重要論文列表、一個記錄完備的代碼存儲庫、甚至還有一些練習來幫助你入門。

如果你打算開始使用RL,那麼現在開始!

Google Dopamine

爲了加速研究並讓社區更多的參與強化學習,Google AI團隊開源了Dopamine,這是一個TensorFlow框架,旨在通過它來使更靈活和可重複性來構建RL模型。

你可以在此GitHub存儲庫中找到整個訓練數據以及TensorFlow代碼(僅15個Python notebooks!)。這是在受控且靈活的環境中進行簡單實驗的完美平臺,聽起來像數據科學家的夢想。

2019年強化學習趨勢

Xander Steenbrugge是DataHack Summit的代表,也是ArxivInsights頻道的創始人,他非常擅長強化學習。以下是他對RL當前狀態的看法以及2019年的預期:

  • 我目前看到RL領域的三個主要問題:
  1. 樣本複雜性(代理需要查看/收集以獲得的經驗數量);
  2. 泛化和轉移學習(訓練任務A,測試相關任務B);
  3. 分層RL(自動子目標分解);

我相信前兩個問題可以通過與無監督表示學習相關的類似技術來解決。目前在RL中,我們正在使用稀疏獎勵信號訓練深度神經網絡,從原始輸入空間(例如像素)映射到端到端方式的動作(例如,使用反向傳播)。

  • 我認爲能夠促進強化學習快速發展的道路是利用無監督的表示學習(自動編碼器、VAE、GAN)將凌亂的高維輸入空間(例如像素)轉換爲低維“概念”空間。

人工智能:符合倫理才更重要

想象一下由算法統治的世界,算法決定了人類採取的每一個行動。這不是一個美好的場景,對嗎?AI中的倫理規範是Analytics Vidhya一直熱衷於討論的話題。

今年有相當多的組織因爲Facebook的劍橋分析公司醜聞和谷歌內部普遍關於設計武器新聞醜聞而遭受危機。沒有一個開箱即用的解決方案或一個適合所有解決方案來處理AI的倫理方面。它需要一種細緻入微的方法,並結合領導層提出的結構化路徑。讓我們看看今年出現的重大政策:GDPR。

GDPR如何改變遊戲規則

GDPR或通用數據保護法規肯定會對用於構建AI應用程序的數據收集方式產生影響。GDPR的作用是以確保用戶可以更好地控制他們的數據。那麼這對AI有何影響?我們可以想象一下,如果數據科學家沒有數據(或足夠數據),那麼構建任何模型都會還沒開始就失敗。

2019年的AI倫理趨勢預期

這是一個灰色的領域。就像我提到的那樣,沒有一個解決方案可以解決這個問題。我們必須聚集在一起,將倫理問題整合到AI項目中。那麼我們怎樣才能實現這一目標呢?正如Analytics Vidhya的創始人兼首席執行官Kunal Jain在2018年DataHack峯會上的演講中所強調的那樣:我們需要確定一個其他人可以遵循的框架。

結束語

有影響力!這是2018年來描述AI最佳的詞彙。今年我成爲ULMFiT的狂熱用戶,我也很期待BERT。



本文作者:【方向】

閱讀原文

本文爲雲棲社區原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章