Spark 2.4 新特性和PPT

即將發佈的 Apache Spark 2.4 版本是 2.x 系列的第五個版本。 本文對 Apache Spark 2.4 的主要功能和增強功能進行了概述。

  • 新的調度模型(Barrier Scheduling),使用戶能夠將分佈式深度學習訓練恰當地嵌入到 Spark 的 stage 中,以簡化分佈式訓練工作流程。
  • 添加了35個高階函數,用於在 Spark SQL 中操作數組/map。
  • 新增一個新的基於 Databricks 的 spark-avro 模塊的原生 AVRO 數據源。
  • PySpark 還爲教學和可調試性的所有操作引入了熱切的評估模式(eager evaluation mode)。
  • Spark on K8S 支持 PySpark 和 R ,支持客戶端模式(client-mode)。
  • Structured Streaming 的各種增強功能。 例如,連續處理(continuous processing)中的有狀態操作符。
  • 內置數據源的各種性能改進。 例如,Parquet 嵌套模式修剪(schema pruning)。
  • 支持 Scala 2.12。

下載PPT

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章