Databricks MLflow集成正式發佈

原創

2019-05-28 08:03

Databricks最近正式發佈了MLflow與Databrick筆記本集成，面向其數據工程和高級訂閱。該集成將MLflow的特性與Databrick筆記本和作業的特性結合起來。最初，在2018年6月，Databricks將MLflow作爲一個開源項目編寫，並且一直可以作爲單獨的命令行工具使用。

MLflow提供了以下三個主要特性：試驗跟蹤、項目和MLflow模型。這些特性中的每一個都可以使用或不使用Databricks在線服務。當與Databricks集成或不集成時，這些特性有不同的表現方式。

MLflow試驗跟蹤需要一個位置存儲MLflow執行過程。MLflow命令行工具有一個內置的跟蹤服務器，可以在其中存儲執行過程，並且MLflow可以使用本地文件系統存儲執行過程。MLflow命令行工具的用戶負責維護執行過程的存儲。Databrick提供了一個與Databrick筆記本集成的試驗跟蹤服務器，從而使用戶不必自己管理跟蹤。此外，每次記錄試驗的一次運行時，Databrick都會存儲一個版本的筆記本。最後，Databricks提供了一個用戶界面來研究MLflow試驗和執行過程，類似於獨立UI，可以通過MLflow命令行工具訪問。

MLflow提供了一種結構化的配置驅動的方式，可以將可重複執行的代碼視爲項目。MLflow通過包含適當的配置文件將Git存儲庫轉換爲項目，並支持以下環境：Conda、Docker或系統環境。Databricks增加了在Databrick集羣上將項目作爲作業運行的能力。用戶需要首先在他們的Databricks帳戶中創建一個試驗，然後用戶可以從MLflow命令行鍼對Databrick作業和試驗運行一個項目。

MLflow將模型存儲爲試驗中運行的構件。Databrick試驗允許爲存儲大型模型的試驗指定外部存儲。可以使用MLflow API從Databrick筆記本或作業中恢復特定執行過程中的模型。然後，用戶可以在筆記本中使用恢復的模型，使用Apache Spark UDF進行預測，或者將模型部署到AWS Sagemaker和Microsoft Azure ML等外部服務上。

Databricks首席技術專家Matei Zaharia宣佈了MLflow 1.0版本中的兩個新特性：多步工作流和模型註冊表。聲明中展示了這些特性，其中有一個用戶界面，可以用於可視化多步工作流，然後註冊生成的模型。模型註冊之後，可以通過一個新的用戶界面部署和跟蹤模型。

查看英文原文：Databricks MLflow Integration Now Generally Available

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Databricks MLflow集成正式發佈

谷歌通過概念向量來影響圖像搜索

洛杉磯數據 CTO 圓桌會議：AI 和數據的未來

Databricks MLflow集成正式發佈

谷歌採用弱監督算法給大規模數據集打標籤

臨牀醫生需要了解的機器學習

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結