不懂業務的開發人員,就不是好的數據科學家

當下,數字化轉型浪潮席捲各行各業。就以剛過不久的七夕節爲例,在這一天,看電影、聚餐、唱歌等等都成爲了大家不可或缺的娛樂項目,由於線下 等位人數過多,在線預約取號軟件得到了廣泛應用。而就在當天,某知名火鍋店的排號系統卻意外罷工,更是直接登上了微博熱搜榜。

據瞭解,數據激增是導致系統崩潰的直接原因。不少“熱心”網友在其官方微博留言:“什麼鬼,軟件崩了”、“趕緊修系統去!!”等等。好在,該火鍋店迅速修復了系統 Bug,恢復了正常營業。可見,如何快速地、穩定地交付高質量應用,滿足用戶的多樣化需求,已經成爲企業必須要面對的關鍵問題,其直接影響到企業的利潤及發展潛力。
其中,軟件開發過程的改進是關鍵,正是 DevOps 開啓了軟件開發的新革命。它將開發、運營和業務等部門之間進行聯通,實現了軟件開發人員和 IT 運維技術人員有效溝通的工作方式。促使軟件的構建、測試、發佈更加迅速、可靠。

同樣,在人工智能(AI)和機器學習(ML)領域,需要類似的改進方法進一步提高模型開發、訓練和部署的效率,幫助企業實現機器學習的快速落地。

一、機器學習 / 人工智能如何輕鬆開發和運維?

Gartner 2020 年 4 月的一項調查顯示,全球 14%的 CIO 已經部署了人工智能, 48%的 CIO 將在 2019 年或 2020 年部署人工智能。人工智能及機器學習的部署上升趨勢表明,大多數企業認識到機器學習的變革優勢,並正在從 機器學習 / 人工智能中獲得價值,但在實際生產中應用機器學習,企業仍然面臨諸多挑戰。

一方面,機器學習應用本身在開發工具(如 IDE,軟件包 / 庫和統計技術等)領域已經取得了長足的進步,但在部署和維護環節的關注度極低。 機器學習項目同樣遵循軟件開發的流程——創建、訓練、部署,再根據需求更迭版本。但機器學習系統與傳統軟件有着本質的區別,它由數據驅動,使得其不確定性很強。由於部署新模型的過程需要數週或數月,同時模型又時常變化,操作不當極易導致新模型無法投入生產。

另一方面,機器學習項目落地涉及企業衆多環節,各個團隊之間的協作是關鍵。 具體到公司內部,基本涉及三類職責的人羣:產品經理、應用開發、算法工程師 / 數據科學家。當算法模型創建完成後,應用開發會調用相應端口,而後續則需要建立機器學習平臺或者運維團隊的支持。對於各部門的團隊來說,機器學習平臺及其運維只是整個機器學習項目中的一部分,需要數據科學家、IT 等多部門能夠通過監視和驗證的手段管理機器學習。例如:數據科學家通常參與機器學習模型 / 算法的開發,但他們不負責生產流程和系統,所以實現協作和整合顯得尤爲重要。

此外,機器學習架構設計方面也存在缺陷。 目前諸多機器學習模型代碼與應用代碼爲緊偶關係,當模型需要快速地更新、迭代、 AB 測試時,機器學習團隊依賴應用開發團隊,使得平臺運維團隊、應用開發團隊和機器學習團隊相互抑制,直接影響到整個項目的進度。可見機器學習工作流程缺乏與通用軟件工程相似的標準化流程,急需將數據科學、數據工程以及 DevOps 專業知識結合在一起。

由此,MLOps 應運而生,MLOps 基於提高工作流效率的 DevOps 原理和做法,將持續集成、持續交付和持續部署的理念應用到機器學習過程當中。 其聚焦於機器學習新模型的持續訓練、新模型的部署以及之後的技術工作,旨在保證機器學習項目快速、持續地試驗和開發模型、快速地將模型部署到生產環境、減少模型衰減帶來的影響。

總的來看,隨着機器學習技術和實踐與現有的軟件交付系統和流程結合起來,MLOps 將獲得迅速發展。 不過,必須明確,MLOps 所具備的優勢並不等於它是萬能的,雖然 MLOps 改善了機器學習解決方案的質量和一致性,但整個方案相對複雜,企業自身無法獨自實現,因此需要一個平臺來處理這些頻繁的事件。

二、Amazon SageMaker 賦能企業應用 AI/ML

爲此,Amazon Web Services(AWS)作爲人工智能與機器學習的先驅者之一,推出了完全託管端到端 MLOps 服務的 Amazon SageMaker 平臺。Amazon SageMaker 可幫助開發人員和數據科學家快速地大規模構建、訓練和部署機器學習 (ML) 模型,消除了機器學習過程中各個步驟的繁重工作,讓開發高質量模型變得更加輕鬆。

在傳統的機器學習項目中,如圖所示,數據科學家會需要參與每個步驟,將不斷更新的新模型投入到實際生產中。如部署週期是每月一次或每季度一次,傳統流程還可滿足需求。但如今,企業需要新功能、高可操作性的機器學習功能,傳統的機器學習流程逐漸成爲機器學習落地、規模化、生產化的阻力。

Amazon SageMaker 覆蓋整個機器學習項目全階段,將機器學習算法的開發過程、業務流程與部署過程進行了松耦,以全託管、自動化的方式提供監視、驗證和管理機器學習模型等服務,加速企業建設 MLOps 的過程。

構建機器學習模型

Amazon SageMaker Autopilot 可幫助用戶自動構建、訓練和調優完全可視和可控的模型,即可自動檢查原始數據、應用功能處理器、選擇最佳算法集、訓練和調優多個模型、跟蹤模型性能以及根據性能對模型進行排名。

訓練機器學習模型

Amazon SageMaker Experiments 通過自動捕獲輸入參數、配置和結果並將其存儲爲案例,幫助用戶組織和跟蹤機器學習模型的迭代。此外用戶還可使用 SageMaker Studio,以可視化的方式來瀏覽進行中的機器學習實驗,根據實驗特徵搜索先前的實驗、查看先前的實驗及結果,以及直觀地比較實驗結果。

部署機器學習模型

用戶可依靠 Amazon SageMaker 模型監控器來檢測和修復概念偏差,讓模型保持精確。當模型在生產環境中運行時,一些功能可能會出現偏差,這表明需要對模型進行再訓練,模型監控器會自動檢測已部署模型中的概念偏差,並提供詳細的警報,幫助用戶確定問題的根源。
與此同時,AWS 針對中國市場的特點,爲開發者提供十分開放的使用環境,幫助用戶在 AI 時代實現智能轉型。

開放性

AWS 不斷積極參與衆多開源社區項目。Amazon SageMaker 對包括 TensorFlow、PyTorch、Apache MXNet 在內的主流框架進行了深度優化。例如:在全球範圍內使用 TensorFlow 框架的機器學習項目約 85% 的負載跑在 AWS 平臺上,其針對 TensorFlow 進行優化後能夠實現同時跨百餘個 GPU 提供近線性擴展效率,爲開發者解決了在雲端運行時的大量處理開銷。根據實際案例,256 GPU 擴展效率可達到 90%,訓練時間從 30 分鐘縮短到 14 分鐘,開發者可在更短時間內訓練更準確、更專業的模型。

此外,在今年 4 月 AWS 和 Facebook 合作推出了 PyTorch 模型服務庫 TorchServe。藉助 TorchServe,PyTorch 用戶可以更快地將其模型應用於生產,而無需編寫自定義代碼:除了提供低延遲預測 API 之外,TorchServe 還爲一些最常見的應用程序嵌入了默認處理程序,例如目標檢測和文本分類。目前 Amazon SageMaker 支持的深度學習框架包括:TensorFlow、PyTorch、Apache MXNet、Chainer、Keras、Gluon、Horovod、Scikit-learn、Deep Graph Library、Deep Java Library 等。

值得關注的是,AWS 在重視技術創新發展的同時,一樣關注當下存在的社會問題。 在疫情期間,上海 AWS 人工智能實驗室發佈了基於深度學習的有關製藥領域的知識圖譜計算庫 Deep Graph Library。通過調用該庫, 能幫助人們更快、更有效地從現有藥物中查找針對新冠病毒有潛在治療效果的藥物。

爲了幫助更多的企業用戶與開發者深入瞭解 AWS 業務提供的機器學習和 AI 服務,在 9 月 10 日 -11 日即將舉行的「AWS 在線技術峯會 2020」中,AWS 爲開發者們準備了人工智能與機器學習的技術分享論壇,專注於討論並解決阻礙開發人員掌握機器學習的衆多艱鉅挑戰。

屆時論壇將邀請到 AWS 機器學習產品技術專家 王世帥、AWS 資深開發者佈道師 王宇博、AWS APN 合作伙伴高級解決方案架構師 張崢等以及諸多 AWS 人工智能業務專家及合作伙伴,與您一同分享機器學習相關深度技術、AWS 在人工智能與機器學習的整體架構、AWS 幫助開發者大規模快速構建、訓練和部署機器學習模型的雲化平臺 Amazon SageMaker 等等相關話題。同時,開發者還可以瞭解到人工智能和機器學習服務的具體落地案例。

此外,在「AWS 在線技術峯會 2020」活動中,您還可瞭解到關於現代應用與開發、數據湖與數據分析、數據庫、人工智能與機器學習、安全與合規等雲計算前沿科技及創新方案。無論你是開發小白、或是技術大牛,均能在本次活動中找到適合自己的內容。AWS 相信,只有讓更多的人蔘與到技術的推進與建設中,才能夠集衆人之力,構建超乎所見,用技術讓世界更美好!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章