本文由 Apache Flink PMC、阿里巴巴技術專家程鶴羣分享,主要介紹 PyFlink 的核心功能及應用,分爲以下三部分:
- PyFlink 的發展史。
- PyFlink 的核心功能及原理。
- PyFlink Demo 演示。
更多內容,查看 Apache Flink運維和實戰系列文章。
1.PyFlink 的發展史
1.1、v1.8.x
- Flink 在 1.8 版本的時候就已經提供 Python API,只在 Datase/Stream 上提供支持。
- 存在一些問題,比如:
- Table API 不支持 Python。
- 兩套各自獨立實現的一個 Python API。
- 底層實現是 JPython,JPython 無法支持 Python3.x。
1.2、v1.9.x
- 2019 年 8 月發佈。
- 支持 Python Table API。
1.3、v1.10.x
- 2020 年 2 月發佈。
- 提供了 Python UDF 的支持。
- 提供 UDF 的依賴管理。
1.4、未來發展
- 提供 Pandas UDF 的支持。
- 提供用戶自定義的一些 UDF Metrics。
- ML API。
- 在易用性方面,提供 SQL DDL 支持 Python UDF。
- 在後面的一些版本中,我們也希望越來越多的人能夠參與到 PyFlink 的貢獻和開發中去。
2.PyFlink 核心功能及原理介紹
原文鏈接:【https://www.infoq.cn/article/ybP6zTBbyXuV3NOvtZyX】。未經作者許可,禁止轉載。