Cloudera果然向云出手了!新机器学习服务采用云原生路径!

今年10月份,Cloudera宣布与Hortonworks合并,这两家Hadoop领域的头部厂商为了抗住主流云供应商亚马逊、微软和谷歌的压力不得不走到一起,根据当时的报道,双方之后会将重心转移到云上。在预计与Hortonworks合并之前的最后一份季度报告中,Cloudera终于向云平台出手,公开DSW的全新云原生预览版并附带原生机器学习服务Cloudera ML,这是Cloudera的首个百分百Kubernetes产品。

Cloudera认为市场的一个重要趋势是迁移到云端,虽然只有大约25-30%的Cloudera基础服务在云中运行工作负载,但云采用的趋势是明确无误的。Ovum预测,明年将有一半新大数据服务在云上运行;第二个趋势是AI,更具体地说是机器学习。Cloudera最初发布DSW就是为了构建、更改和部署数据科学模型,只是最初的DSW没有云端版本。

传统意义上,机器学习服务通常运行在Hadoop之上,但Apache Hadoop社区已着手将Hadoop与HDFS分离,以便云对象存储也可成为一流公民。由于Hadoop不再是运行大数据或机器学习的唯一场所,所以Cloudera ML无论是在Kubernetes集群、本地还是公有云上运行都可以。

考虑到Databricks(适用于Spark),Amazon SageMaker,Azure机器学习和Google Cloud AutoML等服务早已大规模推广,Cloudera现在推出该服务也是有些晚。Cloudera ML通过基于Kubernetes的新架构运行,该架构绕过了内部部署Hadoop集群时的资源调度工具Yarn。需要说明的是,这并不能取代在Hadoop和YARN上运行现有DSW的方式,只是提供了另一个在Kubernetes环境中运行的版本。

这不是Cloudera第一次支持数据科学或ML工作的容器,通过使用容器,Cloudera可以打包物理部署所需的相互依赖性。鉴于最初的DSW针对运行Hadoop集群的用户,因此云原生版本同样如此,其实在YARN上运行Spark也可适应相同的部署,但随着Kubernetes成为云原生计算的事实标准,如果Cloudera真的想向云下手必须接受Kubernetes,而不是Yarn。

Cloudera ML目前处于有限的预览状态,且不对所有人开放预览版本,支持访问云对象存储、HDFS和外部数据库中的数据,部署在公有云中或最终通过OpenShift部署在私有云中均可。

显然,Cloudera还将继续支持内部部署的大数据服务,毕竟这是当前服务的核心。作为一个向云计算扩展的内部部署供应商,Cloudera将通过类似的混合支持开始,并逐渐向云平台过渡。支持混合就意味着添加云原生选项,数据仓库等其他工作也可能从运行Kubernetes集群中受益。

这就不禁激起用户对Hadoop问题的讨论,其实Apache社区也在努力让Hadoop平台更加适合云平台,从分离存储到容纳容器化工作负载,这些都需要一定时间才可以完成。一旦你用云对象存储替代HDFS,用Spark替换MapReduce,也没有什么是无法在云平台上运行的,这就是云对多种类型工作负载的管理和支持。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章