機器學習平臺再進化,偶數科技發佈LittleBoy 3.0

近日,偶數科技正式發佈了機器學習平臺LittleBoy的3.0版本。新版本進一步擴展了LittleBoy機器學習平臺的深度和廣度,提升了模型支持複雜度和種類。

在不影響“導航式建模”易用性的前提下,AI模型訓練過程中的每一步都增加了拓展功能,可以滿足反洗錢、反欺詐、風控、安全等衆多業務領域的需求。

  • 新增Notebook功能和配合其使用的“LittleBoy”python庫,可以實現數據探索、自定義訓練模型等功能

  • 新增可配置的機器學習算法:Logistic Regression、Naive Bayes、Decision Tree、RandomForest、Gradient Boosted Tree、KMeans、GMM

  • 新增訓練流程中的特徵重要性算法

  • 新增了模型評價KS指標,優化了模型預測結果混淆矩陣的展示

  • Master節點支持高可用

  • 支持IDE集成開發

 

  1. 添加Notebook模塊

 

Notebook模塊提供了一個交互式的python編程環境,其中包含了Tensorflow、Pandas、Matplotlib、Seaborn、Scikit-learn等常用的機器學習庫,且允許用戶自由導入更多的Python庫,可以完成數據分析和輕量化建模的任務。

值得強調的是,不同於Jupyter簡單的Notebook開發環境,LittleBoy中的Notebook做到了和LittleBoy平臺數據互通、模型互聯,從而成爲了一個深度集成的有機整體。通過一系列OushuDB、LittleBoy的對接接口,可以很方便地從平臺中調取元素進行自由探索,並且把自由探索的成果存儲到LittleBoy平臺上統籌管理。

這就意味着LittleBoy將變得更加開放,擁有了隨時集成科學界最新算法成果的能力。數據科學家只需要簡單操作即可在LittleBoy中使用最新的人工智能模型。

 

  1. 新增多種機器學習算法

在LittleBoy原有的分佈式機器學習框架中,添加了Logistic Regression、Naive Bayes、Decision Tree、RandomForest、Gradient Boosted Tree、KMeans、GMM等機器學習經典算法。這些算法涵蓋分類任務、迴歸任務、聚類任務、特徵處理等多方面的功能點,不僅擴展了AutoML的搜索空間,而且爲用戶提供了更多選擇,可以結合源數據的特點、應用場景的需求,手動選擇最適宜的算法。

 

  1. 添加特徵重要性分析算法

             

優秀的特徵處理對於機器學習的重要程度不亞於良好的機器學習算法,很多時候甚至更加重要。爲了便於用戶理解訓練數據使用的特徵列,篩選、精簡特徵,我們支持了多種特徵重要性計算方法,兼容二分類訓練、多分類訓練、迴歸訓練任務。特徵重要性還可以和原有的"組合特徵列"功能有機結合,方便用戶採用專家經驗和計算得到的特徵重要性,組合出高階特徵。

 

             

部分特徵重要性算法支持特徵分桶化處理,可以用多種方法自動分桶,或手動定義分桶邊界。特徵重要性計算完成後,可以選擇表現良好的分桶特徵,把分桶的配置批量套用到訓練中。特徵分桶將連續特徵離散化,可以有效處理特徵中的缺失值和異常值,增強模型的穩定性和泛化能力。

  1. 優化模型評價指標

       

LittleBoy新版本增加了tpr、fpr、k-s等指標及曲線,支持用更豐富的維度評價訓練完成的AI模型。此外,還改善了模型評價指標的展示,使模型指標、評估集的混淆矩陣等更具備可讀性。

  1. Master節點支持高可用

在很多生產場景中,LittleBoy都需要長時間穩定運行,如大數據量AutoML的精確訓練任務、AI模型的批量離線預測任務,及上線使用並提供對外API的AI服務。這些應用要以小時乃至天爲單位持續運行。

爲了滿足這些場景對系統穩定性的要求,LittleBoy支持了高可用模式,Master節點失效後,可以由standby節點自動接管正在運行的任務,避免因任務進度丟失、服務異常造成不必要的損失。

  1. 支持IDE集成開發

       

LittleBoy的主要功能全部接入了Lava平臺的IDE項目開發環境中。使用IDE開發項目,可以在當前項目的層面上,統一管理AI任務、AI模型、AI服務,實現更新迭代、權限控制、運行狀態監控等。結合作業調度、數據同步等Lava大數據平臺的功能,可以形成從數據到AI服務的完整的鏈條,滿足開發一個項目的全部需求。

 

關於偶數科技

 

⌈偶數科技⌋是一家領先的AI和大數據產品和解決方案提供商,致力於AI賦能全球各行業客戶。公司的願景和使命是 “讓人類只爲興趣而工作”。偶數科技的產品已在金融、電信、製造、公安、能源和互聯網等行業得到廣泛的部署和應用。目前⌈偶數科技⌋已經獲得⌈紅杉中國⌋與⌈紅點中國⌋的兩輪投資。⌈偶數科技⌋是微軟加速器成員企業,併入選美國著名商業雜誌《快公司》“中國最佳創新公司50”榜單。

 

如果您喜歡本文請點右下角在看或轉發到朋友圈。

 

更多新聞請點擊:

五大亮點升級,偶數科技數據中臺Lava 3.2新版本發佈

央行主管《金融電子化》雜誌授予偶數“金融科技產品創新突出貢獻獎”

ITPUB專訪偶數科技:從傳統MPP數據庫到新一代雲原生數據庫

一個成熟數據中臺該有的樣子 | 偶數Lava全面解析

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章