上週六即3月12日,星策開源社區組織了國內第一次DataOps + MLOps的meetup,感謝CSDN和51CTO同步直播,活動圓滿結束。
現在簡單回顧一下。
1. 爲什麼組織這麼一場Meetup?
是因爲我感覺到,DataOps和MLOps雖然在國外已經開始流行了,但是在國內還是比較陌生的,有必要組織這樣的活動,讓更多的工程師瞭解DataOps和MLOps是什麼,能夠幹什麼,對業務的價值,以及其中的技術難點和相應比較成熟的技術方案都有什麼。
2. 各種Ops的異同
最近幾年DevOps之後出現了各種Ops,包括DevSecOps,GitOps,AIOps,NoOps,DataOps,MLOps,FeatureOps,ModelOps等等。他們的相同點都是各種Ops任務(Operation)的自動化,都包含相應的流程、工具和角色;不同點是面向不同的領域,涉及不同的角色,以及自動化的任務不同而已。核心還是爲了更高效,手段還是自動化。
DataOps是在數據分析領域,目標是爲了提高數據分析的質量並縮短週期,涉及角色包括數據科學家、數據工程師,IT工程師等,任務包括數據蒐集,數據ETL,數據可視化等
這個圖很好的表示了DataOps的全部過程。
接着來說MLOps,它面向的領域是機器學習,目標是提高機器學習落地的效率,涉及角色包括AI科學家、AI數據工程師、IT工程師,任務包括場景定義,數據蒐集和整理,模型訓練和部署,持續監控和更新等。同樣用一個圖來表示如下。
用一張表來總結DevOps和DataOps以及MLOps的區別。
(CI:continuous Integration,持續集成;CD:Continuous Deploy,持續部署;CT:Continuous Training,持續訓練;CM:Continuous Monitoring,持續監控)
各種Ops | 對象 | 過程 |
DevOps | Code | CI + CD |
DataOps | Code + Data | CI + CD |
MLOps | Code + Data + Model | CI + CD + CT +CM |
3. Meetup 議程
(1)我首先分享了我對DataOps和MLOps的理解,見上文。
(2)Apache DophinScheduler的PMC leader 郭煒,江湖人稱郭大俠分享了他對DataOps的洞察,並重點介紹了被他稱之爲“DataOps領域內的K8S”----Apache DophinScheduler項目,它作爲一個支持可視化操作,分佈式的數據操作編排系統,從定位上來看確實很像雲原生領域內的K8S。
(3)OpenMLDB的架構師 陳迪豪同學分享了他對MLOps的認識,並重點介紹了他重點參與的開源項目,OpenMLDB。OpenMLDB能極大的提升機器學習上線的效率,並降低機器學習從業人員的門檻。因爲它可以支持用SQL進行特徵提取,然後把對應提取的SQL語句直接上線,這樣保證了訓練和預測所使用到的數據和代碼的一致性,高效的解決數據一致性的問題。此外OpenMLDB還有很多優點和特性,歡迎看他的PPT和視頻。
4. 總結。
DataOps和MLOps作爲各種Ops中的後起之秀,可以在各自領域即數據分析和機器學習領域,起到很大的作用。雖然國內現在還不是很流行,相信隨着國內大數據和機器學習在更多企業的落地,尤其是企業數字化轉型的推進會極大促進這兩者的進一步發展。
5. 附上這次meetup的視頻
- DevOps後的各種Ops相同點和區別在哪?——譚中意
鏈接:https://www.bilibili.com/video/BV16P4y1M7xC?spm_id_from=333.999.0.0
- DataOps &DolphinScheduler——郭煒
鏈接:https://www.bilibili.com/video/BV1FT4y1U7Kp?spm_id_from=333.999.0.0
- 使用OpenMLDB打造MLOps場景應用——陳迪豪
鏈接:https://www.bilibili.com/video/BV1FS4y1D7gB?spm_id_from=333.999.0.0
6. 最後,我們組建了MLOps的愛好者討論羣,目前有超過100多人已經加入,每天討論各種相關技術問題,歡迎愛好者加入。