Databricks MLflow集成正式發佈

Databricks最近正式發佈了MLflow與Databrick筆記本集成,面向其數據工程和高級訂閱。該集成將MLflow的特性與Databrick筆記本和作業的特性結合起來。最初,在2018年6月,Databricks將MLflow作爲一個開源項目編寫,並且一直可以作爲單獨的命令行工具使用。

MLflow提供了以下三個主要特性:試驗跟蹤、項目和MLflow模型。這些特性中的每一個都可以使用或不使用Databricks在線服務。當與Databricks集成或不集成時,這些特性有不同的表現方式。

MLflow試驗跟蹤需要一個位置存儲MLflow執行過程。MLflow命令行工具有一個內置的跟蹤服務器,可以在其中存儲執行過程,並且MLflow可以使用本地文件系統存儲執行過程。MLflow命令行工具的用戶負責維護執行過程的存儲。Databrick提供了一個與Databrick筆記本集成的試驗跟蹤服務器,從而使用戶不必自己管理跟蹤。此外,每次記錄試驗的一次運行時,Databrick都會存儲一個版本的筆記本。最後,Databricks提供了一個用戶界面來研究MLflow試驗和執行過程,類似於獨立UI,可以通過MLflow命令行工具訪問。

MLflow提供了一種結構化的配置驅動的方式,可以將可重複執行的代碼視爲項目。MLflow通過包含適當的配置文件將Git存儲庫轉換爲項目,並支持以下環境:Conda、Docker或系統環境。Databricks增加了在Databrick集羣上將項目作爲作業運行的能力。用戶需要首先在他們的Databricks帳戶中創建一個試驗,然後用戶可以從MLflow命令行鍼對Databrick作業和試驗運行一個項目。

MLflow將模型存儲爲試驗中運行的構件。Databrick試驗允許爲存儲大型模型的試驗指定外部存儲。可以使用MLflow API從Databrick筆記本或作業中恢復特定執行過程中的模型。然後,用戶可以在筆記本中使用恢復的模型,使用Apache Spark UDF進行預測,或者將模型部署AWS SagemakerMicrosoft Azure ML等外部服務上。

Databricks首席技術專家Matei Zaharia宣佈了MLflow 1.0版本中的兩個新特性:多步工作流和模型註冊表。聲明中展示了這些特性,其中有一個用戶界面,可以用於可視化多步工作流,然後註冊生成的模型。模型註冊之後,可以通過一個新的用戶界面部署和跟蹤模型。

查看英文原文Databricks MLflow Integration Now Generally Available

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章