大数据计算引擎们是该有个统一的标准了,闲聊Linkis

大数据中台建设其实已经如火如荼了。我们在这里也不去纠结是中台还是平台,总之形态就是登录web后就可以使用各种大数据引擎进行数据探索,分析,机器学习等工作,大家可以在上面写SQL,Python,Scala等等。

大数据计算引擎有非常多,比如Spark, ClickHouse, Presto等等 。然后前端产品 有比如tableau, zeppeline/jupyter ,各种调度,以及大家开发的花样百出的web交互产品。我们知道,任何东西交互都需要有个协议,在Linkis之前,大家默认遵从的协议其实就是JDBC。但无论如何,前端都是直接和后端耦合在一起的,一个web前端很努力的也可能只能适配到几个Engine。 

那有没有一种可能,有一个标准的协议,大家都和这个协议交互,这里的大家指的前端的 Web、程序,就可以和后端的 Engine进行交互?如果有的话,那么前端开发会变得很容易,也更容易标准化。现在前端Web很难复用,每个公司都要自己开发一套,其实有一个很重要的原因就是缺乏这个协议。

Linkis承担起了这个任务。他提出了一套标准,对Web/调度等提供了标准的Rest/WebSocket协议,对引擎层他提供了一套扩展体系,允许团队将各种引擎集成到Linkis里。一图胜千言,我们看看官方的图就知道了:

在这个基础上,Linkis还可以完成一些大家以前经常重复开发的功能,比如多租户,权限校验等等。另外Linkis采用了微服务架构,所以扩展性也足够的好。

我早先在朋友圈说,

Apache Arrow 典型的是一个构建生态的项目,项目自身是没有什么技术难度的,难度在于让大家都以它为数据的交互标准,而团队的核心工作就是和其他各个重要的项目保持协作,这个也是国外公司的啥手机能力,国内目前很难赶上的部分。

祝威廉

所以我其实是希望Linkis定位一定要清晰,和Arrow 非常像,Linkis核心就是做生态,把报表,workstation,调度等等和计算引擎连接起来。不要贪大求多,比如还带进去混合计算的功能,让自身也变成了一个计算引擎。

等市面上,大家都用Linkis去访问自己的Engine层,那么Linkis就真的成功了。

发布了282 篇原创文章 · 获赞 146 · 访问量 85万+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章