一切都是爲了更高效(寫在國內第一次DataOps + MLOps meetup之後)

上週六即3月12日,星策開源社區組織了國內第一次DataOps + MLOps的meetup,感謝CSDN和51CTO同步直播,活動圓滿結束。

現在簡單回顧一下。

1. 爲什麼組織這麼一場Meetup?

是因爲我感覺到,DataOps和MLOps雖然在國外已經開始流行了,但是在國內還是比較陌生的,有必要組織這樣的活動,讓更多的工程師瞭解DataOps和MLOps是什麼,能夠幹什麼,對業務的價值,以及其中的技術難點和相應比較成熟的技術方案都有什麼。

2. 各種Ops的異同

最近幾年DevOps之後出現了各種Ops,包括DevSecOps,GitOps,AIOps,NoOps,DataOps,MLOps,FeatureOps,ModelOps等等。他們的相同點都是各種Ops任務(Operation)的自動化,都包含相應的流程、工具和角色;不同點是面向不同的領域,涉及不同的角色,以及自動化的任務不同而已。核心還是爲了更高效,手段還是自動化。

DataOps是在數據分析領域,目標是爲了提高數據分析的質量並縮短週期,涉及角色包括數據科學家、數據工程師,IT工程師等,任務包括數據蒐集,數據ETL,數據可視化等

這個圖很好的表示了DataOps的全部過程。

 

接着來說MLOps,它面向的領域是機器學習,目標是提高機器學習落地的效率,涉及角色包括AI科學家、AI數據工程師、IT工程師,任務包括場景定義,數據蒐集和整理,模型訓練和部署,持續監控和更新等。同樣用一個圖來表示如下。

 

用一張表來總結DevOps和DataOps以及MLOps的區別。
(CI:continuous Integration,持續集成;CD:Continuous Deploy,持續部署;CT:Continuous Training,持續訓練;CM:Continuous Monitoring,持續監控)

各種Ops    對象 過程
DevOps     Code CI + CD
DataOps     Code + Data  CI + CD
MLOps Code + Data + Model CI + CD + CT +CM

 

3.  Meetup 議程

(1)我首先分享了我對DataOps和MLOps的理解,見上文。

(2)Apache DophinScheduler的PMC leader 郭煒,江湖人稱郭大俠分享了他對DataOps的洞察,並重點介紹了被他稱之爲“DataOps領域內的K8S”----Apache DophinScheduler項目,它作爲一個支持可視化操作,分佈式的數據操作編排系統,從定位上來看確實很像雲原生領域內的K8S。

(3)OpenMLDB的架構師 陳迪豪同學分享了他對MLOps的認識,並重點介紹了他重點參與的開源項目,OpenMLDB。OpenMLDB能極大的提升機器學習上線的效率,並降低機器學習從業人員的門檻。因爲它可以支持用SQL進行特徵提取,然後把對應提取的SQL語句直接上線,這樣保證了訓練和預測所使用到的數據和代碼的一致性,高效的解決數據一致性的問題。此外OpenMLDB還有很多優點和特性,歡迎看他的PPT和視頻。

4. 總結。

DataOps和MLOps作爲各種Ops中的後起之秀,可以在各自領域即數據分析和機器學習領域,起到很大的作用。雖然國內現在還不是很流行,相信隨着國內大數據和機器學習在更多企業的落地,尤其是企業數字化轉型的推進會極大促進這兩者的進一步發展。

 

5.  附上這次meetup的視頻

  • DevOps後的各種Ops相同點和區別在哪?——譚中意

鏈接:https://www.bilibili.com/video/BV16P4y1M7xC?spm_id_from=333.999.0.0

  • DataOps &DolphinScheduler——郭煒

鏈接:https://www.bilibili.com/video/BV1FT4y1U7Kp?spm_id_from=333.999.0.0

  • 使用OpenMLDB打造MLOps場景應用——陳迪豪

鏈接:https://www.bilibili.com/video/BV1FS4y1D7gB?spm_id_from=333.999.0.0

 

6.  最後,我們組建了MLOps的愛好者討論羣,目前有超過100多人已經加入,每天討論各種相關技術問題,歡迎愛好者加入。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章