机器学习平台再进化,偶数科技发布LittleBoy 3.0

近日,偶数科技正式发布了机器学习平台LittleBoy的3.0版本。新版本进一步扩展了LittleBoy机器学习平台的深度和广度,提升了模型支持复杂度和种类。

在不影响“导航式建模”易用性的前提下,AI模型训练过程中的每一步都增加了拓展功能,可以满足反洗钱、反欺诈、风控、安全等众多业务领域的需求。

  • 新增Notebook功能和配合其使用的“LittleBoy”python库,可以实现数据探索、自定义训练模型等功能

  • 新增可配置的机器学习算法:Logistic Regression、Naive Bayes、Decision Tree、RandomForest、Gradient Boosted Tree、KMeans、GMM

  • 新增训练流程中的特征重要性算法

  • 新增了模型评价KS指标,优化了模型预测结果混淆矩阵的展示

  • Master节点支持高可用

  • 支持IDE集成开发

 

  1. 添加Notebook模块

 

Notebook模块提供了一个交互式的python编程环境,其中包含了Tensorflow、Pandas、Matplotlib、Seaborn、Scikit-learn等常用的机器学习库,且允许用户自由导入更多的Python库,可以完成数据分析和轻量化建模的任务。

值得强调的是,不同于Jupyter简单的Notebook开发环境,LittleBoy中的Notebook做到了和LittleBoy平台数据互通、模型互联,从而成为了一个深度集成的有机整体。通过一系列OushuDB、LittleBoy的对接接口,可以很方便地从平台中调取元素进行自由探索,并且把自由探索的成果存储到LittleBoy平台上统筹管理。

这就意味着LittleBoy将变得更加开放,拥有了随时集成科学界最新算法成果的能力。数据科学家只需要简单操作即可在LittleBoy中使用最新的人工智能模型。

 

  1. 新增多种机器学习算法

在LittleBoy原有的分布式机器学习框架中,添加了Logistic Regression、Naive Bayes、Decision Tree、RandomForest、Gradient Boosted Tree、KMeans、GMM等机器学习经典算法。这些算法涵盖分类任务、回归任务、聚类任务、特征处理等多方面的功能点,不仅扩展了AutoML的搜索空间,而且为用户提供了更多选择,可以结合源数据的特点、应用场景的需求,手动选择最适宜的算法。

 

  1. 添加特征重要性分析算法

             

优秀的特征处理对于机器学习的重要程度不亚于良好的机器学习算法,很多时候甚至更加重要。为了便于用户理解训练数据使用的特征列,筛选、精简特征,我们支持了多种特征重要性计算方法,兼容二分类训练、多分类训练、回归训练任务。特征重要性还可以和原有的"组合特征列"功能有机结合,方便用户采用专家经验和计算得到的特征重要性,组合出高阶特征。

 

             

部分特征重要性算法支持特征分桶化处理,可以用多种方法自动分桶,或手动定义分桶边界。特征重要性计算完成后,可以选择表现良好的分桶特征,把分桶的配置批量套用到训练中。特征分桶将连续特征离散化,可以有效处理特征中的缺失值和异常值,增强模型的稳定性和泛化能力。

  1. 优化模型评价指标

       

LittleBoy新版本增加了tpr、fpr、k-s等指标及曲线,支持用更丰富的维度评价训练完成的AI模型。此外,还改善了模型评价指标的展示,使模型指标、评估集的混淆矩阵等更具备可读性。

  1. Master节点支持高可用

在很多生产场景中,LittleBoy都需要长时间稳定运行,如大数据量AutoML的精确训练任务、AI模型的批量离线预测任务,及上线使用并提供对外API的AI服务。这些应用要以小时乃至天为单位持续运行。

为了满足这些场景对系统稳定性的要求,LittleBoy支持了高可用模式,Master节点失效后,可以由standby节点自动接管正在运行的任务,避免因任务进度丢失、服务异常造成不必要的损失。

  1. 支持IDE集成开发

       

LittleBoy的主要功能全部接入了Lava平台的IDE项目开发环境中。使用IDE开发项目,可以在当前项目的层面上,统一管理AI任务、AI模型、AI服务,实现更新迭代、权限控制、运行状态监控等。结合作业调度、数据同步等Lava大数据平台的功能,可以形成从数据到AI服务的完整的链条,满足开发一个项目的全部需求。

 

关于偶数科技

 

⌈偶数科技⌋是一家领先的AI和大数据产品和解决方案提供商,致力于AI赋能全球各行业客户。公司的愿景和使命是 “让人类只为兴趣而工作”。偶数科技的产品已在金融、电信、制造、公安、能源和互联网等行业得到广泛的部署和应用。目前⌈偶数科技⌋已经获得⌈红杉中国⌋与⌈红点中国⌋的两轮投资。⌈偶数科技⌋是微软加速器成员企业,并入选美国著名商业杂志《快公司》“中国最佳创新公司50”榜单。

 

如果您喜欢本文请点右下角在看或转发到朋友圈。

 

更多新闻请点击:

五大亮点升级,偶数科技数据中台Lava 3.2新版本发布

央行主管《金融电子化》杂志授予偶数“金融科技产品创新突出贡献奖”

ITPUB专访偶数科技:从传统MPP数据库到新一代云原生数据库

一个成熟数据中台该有的样子 | 偶数Lava全面解析

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章