如何無縫地將人工智能擴展到分佈式大數據

本文最初發佈於 LinkedIn Pulse,由InfoQ中文站翻譯並分享。

6月初,在今年的虛擬CVPR 2020上,我 在 半天的 教程課中 介紹 瞭如何構建面向大數據的深度學習應用程序。這是一個非常獨特的體驗,在本文中,我想分享本教程的一些重點內容。

關鍵問題:大數據上的人工智能

本教程的重點是AI從實驗階段進入生產應用這個過程中出現的一個關鍵問題,即 如何無縫地將人工智能擴展到分佈式大數據 。如今,人工智能研究人員和數據科學家要將人工智能模型應用到存儲在分佈式大數據集羣中的生產數據集上,都需要經歷巨大的痛苦。

通常,傳統的方法是配置兩個獨立的集羣,一個用於大數據處理,另一個用於深度學習(例如GPU集羣),中間部署“連接器”(或膠水代碼)。遺憾的是,這種“連接器方法”不僅帶來了大量的開銷(例如,數據複製、額外的集羣維護、碎片化的工作流等),而且還會因爲跨異構組件而導致語義不匹配(下一節將對此進行詳細介紹)。

爲了應對這些挑戰,我們開發了開源技術,直接在大數據平臺上支持新的人工智能算法。如下圖所示,這包括 BigDL(面向Apache Spark的分佈式深度學習框架)和 Analytics Zoo(Apache Spark/Flink&Ray上的分佈式Tensorflow、Keras和PyTorch)。

原文鏈接:【https://www.infoq.cn/article/5gqqkPNfmo1daDFVyRbP】。未經作者許可,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章