大数据计算引擎们是该有个统一的标准了，闲聊Linkis

原創

2020-02-20 16:02

大数据中台建设其实已经如火如荼了。我们在这里也不去纠结是中台还是平台，总之形态就是登录web后就可以使用各种大数据引擎进行数据探索，分析，机器学习等工作，大家可以在上面写SQL,Python，Scala等等。

大数据计算引擎有非常多，比如Spark, ClickHouse, Presto等等。然后前端产品有比如tableau, zeppeline/jupyter ，各种调度，以及大家开发的花样百出的web交互产品。我们知道，任何东西交互都需要有个协议，在Linkis之前，大家默认遵从的协议其实就是JDBC。但无论如何，前端都是直接和后端耦合在一起的，一个web前端很努力的也可能只能适配到几个Engine。

那有没有一种可能，有一个标准的协议，大家都和这个协议交互，这里的大家指的前端的 Web、程序，就可以和后端的 Engine进行交互？如果有的话，那么前端开发会变得很容易，也更容易标准化。现在前端Web很难复用，每个公司都要自己开发一套，其实有一个很重要的原因就是缺乏这个协议。

Linkis承担起了这个任务。他提出了一套标准，对Web/调度等提供了标准的Rest/WebSocket协议，对引擎层他提供了一套扩展体系，允许团队将各种引擎集成到Linkis里。一图胜千言，我们看看官方的图就知道了：

在这个基础上，Linkis还可以完成一些大家以前经常重复开发的功能，比如多租户，权限校验等等。另外Linkis采用了微服务架构，所以扩展性也足够的好。

我早先在朋友圈说，

Apache Arrow 典型的是一个构建生态的项目，项目自身是没有什么技术难度的，难度在于让大家都以它为数据的交互标准，而团队的核心工作就是和其他各个重要的项目保持协作，这个也是国外公司的啥手机能力，国内目前很难赶上的部分。
祝威廉

所以我其实是希望Linkis定位一定要清晰，和Arrow 非常像，Linkis核心就是做生态，把报表，workstation,调度等等和计算引擎连接起来。不要贪大求多，比如还带进去混合计算的功能，让自身也变成了一个计算引擎。

等市面上，大家都用Linkis去访问自己的Engine层，那么Linkis就真的成功了。

祝威廉博客专家

发布了282 篇原创文章 · 获赞 146 · 访问量 85万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大数据计算引擎们是该有个统一的标准了，闲聊Linkis

如何將Python算法模型註冊成Spark UDF函數實現全景模型部署

可編程的SQL是什麼樣的？

MLSQL Stack的體驗站點終於來啦

Spark的常見困惑（1）

臺北行二三事：不要讓疲勞被掩埋

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結