從大數據到AI:AI的現狀和未來

AI前線導讀:

事實證明,從大數據到數據分析再到AI的轉變是一個很自然的過程。這不僅是因爲這個過程有助於調整人類的思維模型,或者因爲大數據和數據分析在被AI奪去光彩之前浸淫在AI的各種炒作中,主要還是因爲我們需要通過大數據來構建AI。

更多幹貨內容請關注微信公衆號“AI前線”(ID:ai-front)

AI走向主流只用了幾年時間,儘管在很多方面已經取得了快速進展,但真正瞭解AI的人並不多,能夠掌握AI的人就更少了。

2016年,AI炒作剛剛開始,很多人在提到“AI”一詞時仍然十分謹慎。畢竟,多年來我們一直被灌輸要儘量避免使用這個術語,因爲這些事情已經引起了混亂,它們承諾過度,卻無法兌現。事實證明,從大數據到數據分析再到AI的轉變是一個很自然的過程。

這不僅是因爲這個過程有助於調整人類的思維模型,或者因爲大數據和數據分析在被AI奪去光彩之前浸淫在AI的各種炒作中,主要還是因爲我們需要通過大數據來構建AI。

讓我們回顧一下Big Data Spain(BDS)大會,它是歐洲最大和最具前瞻性的大會之一,標誌着從大數據到AI的轉變,並嘗試回答一些與AI相關的問題。

在真正成功之前,我們能先假裝成功嗎?

簡單地說:不行。Gartner分析成熟度模型的一個要點是,如果你想構建AI功能,就必須在可靠的大數據基礎上進行。

其中一部分是關於存儲和處理大量數據的能力,但這真的只是冰山一角。現在的技術解決方案已經琳琅滿目,但要構建AI,你不能忘了人和流程。

更具體地說:不要忘了組織中的數據素養和數據治理。如果你認爲可以通過某種方式跨過數據分析的演化鏈在你的組織中開發AI解決方案,那麼請三思。

image

Stratio首席執行官Oscar Mendez在他的主題演講中強調,要超越華而不實的AI,需要採取整體方法。做好數據基礎設施和數據治理,並在此基礎上訓練正確的機器學習(ML)模型,這樣可以獲得令人印象深刻的結果。但這些可以帶給你的好處是有限的,Alexa、Cortana和Siri的日常失誤足以證明這一點。

關鍵是要具備上下文和推理能力,以便更接近地模擬人類智能。並不是Mendez一個人這麼認爲,因爲這也是AI研究人員同樣持有的觀點,例如深度學習領域頂級的思想家之一Yoshua Bengio。深度學習(DL)在模式匹配方面表現優異,數據和計算能力的爆發讓它在基於模式匹配的任務中勝過人類。

然而,智能並非只是關於模式匹配。推理能力不能只通過ML方法來建立——至少現在不行。因此,我們需要整合遠離炒作的AI方法:知識表示和推理、本體論等。這是我們一直在倡導的,並且看到了它在BDS上很受推崇,這是一種正面的肯定。

應該將AI外包嗎?

簡單地說:也許可以,但應該要十分謹慎。我們可以直截了當地說:AI其實很難。是的,AI絕對應該建立在數據治理的基礎之上,因爲這無論如何對你的組織來說都是有好處的。有些組織,比如Telefonica,通過執行戰略計劃設法從大數據轉向AI,但這並非易事。

這一點已經被一份相當可靠的ML採用調查報告所證實,超過1萬1千多個受訪者參與了這次調查。來自Derwen的Paco Nathan展示了O’Reilly的一份調查的結果,這或多或少地證實了我們的想法:採用AI和沒有采用AI的組織之間的差距越來越大。

在AI採用頻譜的一邊是谷歌和微軟這樣的領導者:他們將AI作爲其戰略和運營的核心要素。他們的資源、數據和技術成爲他們領導AI競賽的先決條件。然後是AI採用者,他們在自己的領域中應用AI。然後是落後者,他們陷於技術債務之中,無法在AI採用方面做出任何有意義的事情。

image

從表面上看,AI領導者提供的產品似乎是在普及“AI”。谷歌和微軟都在BDS上展示了這些,他們做了一些演示,在幾分鐘內通過點擊的方式就構建出一個圖像識別應用程序。

很明顯,他們在向我們傳達這樣的一個信息:讓我們來操心模型和培訓的事,你只要專注在你領域內的細節上。我們可以識別機械部件——只需要提供給我們特定的機械部件就可以了,然後你該幹什麼幹什麼去。

谷歌還在BDS上發佈了一些新產品:Kubeflow和AI Hub。它們背後的想法是編排ML管道,類似於Kubernetes爲Docker容器提供的應用程序。這些並不是唯一能夠帶來類似優勢的產品。它們看起來有點誘人,但你應該使用它們嗎?

誰不想直接跳過AI這道坎,拿到想要的結果,而且不需要面對那麼多麻煩?這確實是一種可以讓你領先於競爭對手的方法。但問題是,如果你完全將AI外包,那麼你就無法獲得在中長期內自給自足所需的技能。

想想數字化轉型。是的,數字化、探索技術和重新設計流程也是很難的。並非所有組織都能做到,或者有能力投入足夠的資源,但那些做到的組織現在已經跑在了前面。AI具有類似甚至更大的顛覆潛力。因此,可以立即獲得成果固然好,但AI的投資仍然應該被視爲戰略的重點。

當然,你可以考慮外包基礎設施。對於大多數組織而言,維護自己的基礎設施的數量並未增加。在雲端運行基礎設施所帶來的規模經濟性和領先優勢將帶來實質性好處。

我們將去向何處?

簡單地說:就像登月一樣。ML反饋閉環似乎正在全面展開,因此,採用者試圖跟上,落後者保持滯後,但領導者卻越來越領先。

Pablo Carrier在演講指出,如果你嘗試線性提高DL的準確率,計算量將呈指數級增長。在過去六年中,計算量增加了1000萬倍。即使是谷歌雲也很難跟上,更不用說其他的了。

Google Cloud AI技術主管Viacheslav Kovalevskyi在開始他的“分佈式DL理論和實踐”演講之前,警告說:如果有可能,請避免使用它。如果你真的必須這麼做,請注意與分佈式相關的開銷,並準備在計算和複雜性以及基礎賬單方面付出代價。

Kovalevskyi提供了一些不同的使用分佈式DL的歷史視角——分佈數據、模型或二者。分佈數據是最簡單的方法,分佈兩者是最難的。但是,無論如何,分佈式DL仍然是一個“童話之地”——通過增加k倍計算時間,你並不會獲得k倍的性能提升。

當然,Google的演示主要關注Google Cloud上的TensorFlow,但這不是唯一可用的方法。Databricks剛剛宣佈支持HorovodRunner,通過Horovod來輔助分佈式DL。Horovod是一個開源框架,由Uber推出,谷歌也在使用它。

微軟數據科學家和Azure數據/AI技術專家Marck Vaisman在他的演講中提出了替代方案,他使用了Python和R,而不使用Spark。他介紹了Dask,一個Python開源庫。Dask承諾爲分析提供高級並行性,可以與Numpy、Pandas和Scikit-Learn等項目協同工作。

最後,圖和圖數據庫也是整個BDS的關鍵主題:微軟的知識圖、AWS Neptune和Oracle Labs。

雲計算、分發式以及在ML中引入圖結構是未來需要關注的一些關鍵主題。

英文原文:

https://www.zdnet.com/article/from-big-data-to-ai-where-are-we-now-and-what-is-the-road-forward/

image

鏈接:http://t.cn/E28YBT9

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章