即將發佈的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對 Apache Spark 2.4 的主要功能和增強功能進行了概述。
- 新的調度模型(Barrier Scheduling),使用戶能夠將分佈式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分佈式訓練工作流程。
- 添加了35個高階函數,用於在 Spark SQL 中操作數組/map。
- 新增一個新的基於 Databricks 的 spark-avro 模塊的原生 AVRO 數據源。
- PySpark 還爲教學和可調試性的所有操作引入了熱切的評估模式(eager evaluation mode)。
- Spark on K8S 支持 PySpark 和 R ,支持客戶端模式(client-mode)。
- Structured Streaming 的各種增強功能。 例如,連續處理(continuous processing)中的有狀態操作符。
- 內置數據源的各種性能改進。 例如,Parquet 嵌套模式修剪(schema pruning)。
- 支持 Scala 2.12。