阿里雲機器學習PAI全新推出特徵平臺,助力AI建模場景特徵數據高效利用

推薦算法與系統在全球範圍內已得到廣泛應用,爲用戶提供了更個性化和智能化的產品推薦體驗。在推薦系統領域,AI建模中特徵數據的複用、一致性等問題嚴重影響了建模效率。阿里雲機器學習平臺 PAI 推出特徵平臺(PAI-FeatureStore)。在所有需要特徵的AI建模場景,用戶可通過 Feature Store 輕鬆地共享和重用特徵數據,減少資源和時間成本、提升工作效率。

什麼是特徵平臺

特徵平臺(Feature Store) 是一種中心化的數據管理和共享平臺,用於組織、存儲和管理機器學習和數據科學中使用的特徵數據。在多個細分場景解決AI模型的訓練和推理輸入特徵數據問題。

阿里雲機器學習平臺 PAI-FeatureStore 與阿里雲多個雲產品的深度結合,封裝從特徵到模型的全鏈路。並且,基於推薦算法流程的開發,實現與已有的成熟推薦流程無縫銜接,進一步提升算法工程師和開發人員的效率。

通過 PAI-FeatureStore,有效地提升工作效率、減少資源成本和開發時間。作爲一個集中的、可擴展的、高效的特徵數據存儲和訪問解決方案,解決了在AI建模中特徵數據的複用、一致性、可發現性和可管理性等問題。PAI-FeatureStore 自動完成在線和離線表的構建,保證在線和離線的一致性,同時在特徵表只存一份的情況下,能夠向多人共享特徵;離線存儲方面支持阿里云云原生大數據計算服務MaxCompute,在線存儲方面支持阿里雲實時數倉Hologres、GraphCompute 和 TableStore 等產品,算法工程師無需深入瞭解各個存儲產品的使用細節,通過網頁手動操作或 Python SDK 即可完成特徵處理。

PAI-FeatureStore 適用場景及優勢功能

阿里雲機器學習平臺 PAI-FeatureStore 適用於推薦場景、用戶增長、廣告或者是金融風控場景等需要特徵的AI建模場景,爲數據分析師和建模人員提供統一的數據特徵存儲和管理平臺,方便進行數據處理、特徵提取和分析。

目前 PAI-FeatureStore 主要功能如下:

  • 離線數據和在線數據一致:PAI-FeatureStore 中,各個產品的數據同步操作都封裝爲一行數據同步的代碼,幫忙用戶屏蔽了不同存儲產品繁瑣的數據授權等操作細節,保證數據一致性,提高特徵數據處理和使用的準確率和效率;
  • 自動關聯特徵表:PAI-FeatureStore 中,支持將模型訓練所需要的各種特徵組合在一起,導出成模型訓練所需要的訓練表。當訓練所需的特徵散落在多張不同的表裏時,PAI-FeatureStore支持自動將多張表關聯導出。並且,支持序列表導出、按event_time關聯導出、自動按表大小排序及優化導出時間等;
  • 自動模型特徵分析:PAI-FeatureStore 支持PAI-EAS自動分析出模型需要使用的特徵,並且自動加載好相關特徵。通過指定好PAI-FeatureStore 中的項目名、模型特徵名等,預測引擎能自動分析出所需要的特徵並進行加載,簡化使用流程;
  • 實時特徵秒級讀取:PAI-FeatureStore 支持客戶對特徵進行分類的註冊。在實時特徵值存在秒級別變化的推薦場景中,對特徵鏈路要求高,當有線上請求來讀取特徵時,PAI-FeatureStore會判斷需要讀取的若爲實時特徵,直接對在線存儲的進行讀取。上千個實時特徵的讀取可以在15ms,滿足低延遲要求;
  • 多版本特徵管理:PAI-FeatureStore 支持增量挖掘特徵,解決特徵種類複雜,線上數據來源多樣的問題。方便線上模型迭代,同時節約存儲資源;

此外,PAI-FeatureStore 還有深度結合PAI全鏈路推薦系統PAI-REC,實現離在線一致性檢查;通過SDK可直接使用 PAI-FeatureStore 所有產品能力;支持 PAI-EAS 直接從 MaxCompute 拉取特徵,減少在線存儲壓力等功能。

如何使用 PAI-FeatureStore

使用步驟請參考產品文檔:https://help.aliyun.com/zh/pai/user-guide/feature-store/

PAI-FeatureStore預計將於2023年9月中下旬在全Region正式上線。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章