spark 3.0 终于出了！！！

Apache Spark 3.0.0是3.x系列的第一个发行版。投票于2020年6月10日获得通过。此版本基于git标签v3.0.0，其中包括截至6月10日的所有提交。Apache Spark 3.0建立在Spark 2.x的许多创新基础之上，带来了新的想法并持续了很长时间。正在开发的长期项目。在开源社区的巨大贡献的帮助下，由于440多位贡献者的贡献，此发行版解决了3400多张门票。

今年是Spark作为开源项目10周年。自2010年首次发布以来，Spark已经发展成为最活跃的开源项目之一。如今，Spark实际上是用于大数据处理，数据科学，机器学习和数据分析工作负载的统一引擎。

Spark SQL是此版本中最活跃的组件。已解决票证的46％用于Spark SQL。这些增强功能使所有更高级别的库（包括结构化流和MLlib）以及更高级别的API（包括SQL和DataFrames）受益。此版本中添加了各种相关的优化。在TPC-DS 30TB基准测试中，Spark 3.0大约是Spark 2.4的两倍。

Python现在是Spark上使用最广泛的语言。PySpark每月在PyPI（Python软件包索引）上的下载量超过500万。此版本改善了功能和可用性，包括使用Python类型提示重新设计了熊猫UDF API，新的熊猫UDF类型以及更多的Python错误处理。

以下是Spark 3.0中的功能亮点：自适应查询执行；动态分区修剪；符合ANSI SQL；熊猫API的重大改进；用于结构化流的新UI；调用R用户定义函数的速度提高了40倍；加速器感知调度器；和SQL参考文档。

重大改变

可识别加速器的计划程序（SPARK-24615）
自适应查询执行（SPARK-31412）
N动态分区修剪（SPARK-11150）
重新设计了带有类型提示的熊猫UDF API（SPARK-28264）
结构化流式用户界面（SPARK-29543）
目录插件API（SPARK-31121）
Java 11支持（SPARK-24417）
Hadoop 3支持（SPARK-23534）
更好的ANSI SQL兼容性
性能增强

性能提升

自适应查询执行（SPARK-31412）

基本框架（SPARK-23128）
洗牌后分区号调整（SPARK-28177）
动态子查询重用（SPARK-28753）
本地随机播放器（SPARK-28560）
偏斜连接优化（SPARK-29544）
优化读取连续的随机播放块（SPARK-9853）

动态分区修剪（SPARK-11150）

其他优化器规则
规则TransposeWindow（SPARK-20636）
规则重用子查询（SPARK-27279）
规则PushDownLeftSemiAntiJoin（SPARK-19712）
规则PushLeftSemiLeftAntiThroughJoin（SPARK-19712）
规则ReplaceNullWithFalse（SPARK-25860）
在联接/聚合子查询（SPARK-29343）中无限制地消除排序
规则PruneHiveTablePartitions（SPARK-15616）
从Generate（SPARK-27707）修剪不必要的嵌套字段
规则重写NonCorrelatedExists（SPARK-29800）

最小化表缓存同步成本（SPARK-26917，SPARK-26617，SPARK-26548）
将聚合代码拆分为小函数（SPARK-21870）
在INSERT和ALTER TABLE ADD PARTITION命令中添加批处理（SPARK-29938）
允许将聚合器注册为UDAF（SPARK-27296）

SQL兼容性增强

切换到公历（SPARK-26651）
构建Spark自己的日期时间模式定义（SPARK-31408）
介绍用于表插入的ANSI存储分配策略（SPARK-28495）
默认情况下，在表插入中遵循ANSI存储分配规则（SPARK-28885）
添加一个SQLConf spark.sql.ansi.enabled（SPARK-28989）
支持用于聚合表达式的ANSI SQL过滤子句（SPARK-27986）
支持ANSI SQL OVERLAY函数（SPARK-28077）
支持ANSI嵌套方括号注释（SPARK-28880）
整数溢出时引发异常（SPARK-26218）
间隔算术运算的溢出检查（SPARK-30341）
将无效字符串强制转换为数字类型时抛出异常（SPARK-30292）
使间隔乘除除的溢出行为与其他操作一致（SPARK-30919）
为字符和十进制添加ANSI类型别名（SPARK-29941）
SQL Parser定义了符合ANSI的保留关键字（SPARK-26215）
启用ANSI模式时，禁止使用保留的关键字作为标识符（SPARK-26976）
支持ANSI SQL：LIKE…ESCAPE语法（SPARK-28083）
支持ANSI SQL布尔谓词语法（SPARK-27924）
更好地支持相关子查询处理（SPARK-18455）

PySpark增强功能

重新设计的带有类型提示的熊猫UDF（SPARK-28264）
允许Pandas UDF接受pd.DataFrames（SPARK- 26412 ）的迭代器
支持将StructType作为标量熊猫UDF（SPARK-27240）的参数和返回类型
通过Pandas UDF支持Dataframe Cogroup（SPARK-27463）
添加mapInPandas以允许DataFrames的迭代器（SPARK-28198）
某些SQL函数也应采用列名（SPARK-26979）
使PySpark SQL异常更具Pythonic（SPARK-31849）

可扩展性增强

目录插件API（SPARK-31121）
数据源V2 API重构（SPARK-25390）
Hive 3.0和3.1 Metastore支持（SPARK-27970，SPARK-24360）
将Spark插件界面扩展到驱动程序（SPARK-29396）
使用执行程序插件通过用户定义的指标扩展Spark指标系统（SPARK-28091）
扩展的列式处理支持的开发人员API（SPARK-27396）
使用DSV2的内置源迁移：parquet，ORC，CSV，JSON，Kafka，文本，Avro（SPARK-27589）
在SparkExtensions中允许功能注入（SPARK-25560）

连接器增强

支持高性能S3A提交者（SPARK-23977）
通过不确定性表达式修剪列（SPARK-29768）
spark.sql.statistics.fallBackToHdfs数据源表中的支持（SPARK-25474）
允许使用文件源上的子查询过滤器进行分区修剪（SPARK-26893）
避免在数据源过滤器中下推子查询（SPARK-25482）
从文件源递归加载数据（SPARK-27990）
parquet/ ORC

下推析取谓语（SPARK-27699）
通用化嵌套列修剪（SPARK-25603），并且默认情况下处于启用状态（SPARK-29805）
仅parquet
	嵌套字段的parquet谓词下推（SPARK-17636）
仅限ORC
	支持ORC的合并架构（SPARK-11412）
	ORC的嵌套架构修剪（SPARK-27034）
	谓词转换的复杂性降低了ORC（火花27105，火花28108）
	将Apache ORC升级到1.5.9（SPARK-30695）

CSV
支持CSV数据源中的过滤器下推（SPARK-30323）
hiveSerde

读取带有本机数据源的Hive Serde表时无架构推断（SPARK-27119）
Hive CTAS命令应使用可转换的数据源（SPARK-25271）
使用本机数据源优化插入分区的Hive表（SPARK-28573）

kafka

添加对Kafka标头的支持（SPARK-23539）
添加Kafka授权令牌支持（SPARK-25501）
向Kafka源代码引入新选项：由时间戳偏移（开始/结束）（SPARK-26848）
在Kafka批处理源和流式源v1（SPARK-30656）中支持“ minPartitions”选项
将Kafka升级到2.4.1（SPARK-31126）

新的内置数据源
新的内置二进制文件数据源（SPARK-25348）
新的无操作批处理数据源（SPARK-26550）和无操作流接收器（SPARK-26649）

功能增强

[Hydrogen] 可识别加速器的调度程序（SPARK-24615）
介绍一套完整的连接提示（SPARK-27225）
为SQL查询添加PARTITION BY提示（SPARK-28746）
Thrift服务器中的元数据处理（SPARK-28426）
向scala API添加高阶函数（SPARK-27297）
支持简单的所有收集任务任务环境（SPARK-30667）
hive UDF支持UDT类型（SPARK-28158）
在Catalyst中支持DELETE / UPDATE / MERGE运算符（SPARK-28351，SPARK-28892，SPARK-28893）
实施DataFrame.tail（SPARK-30185）
新的内置功能

sinh，cosh，tanh，asinh，acosh，atanh（SPARK-28133）
任何，每个，某些（SPARK-19851）
bit_and，bit_or（SPARK-27879）
位数（SPARK-29491）
bit_xor（SPARK-29545）
bool_and，bool_or（SPARK-30184）
count_if（SPARK-27425）
date_part（SPARK-28690）
提取物（SPARK-23903）
永远（SPARK-27905）
from_csv（SPARK-25393）
make_date（SPARK-28432）
make_interval（SPARK-29393）
make_timestamp（SPARK-28459）
map_entries（SPARK- 23935 ）
map_filter（SPARK-23937）
map_zip_with（SPARK-23938）
max_by，min_by（SPARK-27653）
schema_of_csv（SPARK-25672）
to_csv（SPARK-25638）
transform_keys（SPARK-23939）
transform_values（SPARK-23940）
typeof（SPARK-29961）
版本（SPARK-29554）
xxhash64（SPARK-27099）

对现有内置功能的改进

内置的日期时间功能/操作改进（SPARK-31415）
支持from_json的FAILFAST模式（SPARK-25243）
array_sort添加一个新的比较器参数（SPARK-29020）
过滤器现在可以将索引以及元素作为输入（SPARK-28962）

监控和可调试性增强

新的结构化流UI（SPARK-29543）
SHS：允许将正在运行的流式应用程序的事件日志翻转（SPARK-28594）
SHS中的JDBC选项卡（SPARK-29724，SPARK-29726）
添加一个API，该API允许用户在批处理和流式查询中定义和观察任意度量（SPARK-29345）
跟踪每个查询计划时间的工具（SPARK-26129）
将基本的洗牌指标放入SQL交换运算符（SPARK-26139）
SQL语句显示在“ SQL”选项卡中，而不是呼叫站点（SPARK-27045）
将工具提示添加到SparkUI（SPARK-29449）
提高历史记录服务器的并发性能（SPARK-29043）
解释格式的命令（SPARK-27395）
支持将截断的计划和生成的代码转储到文件（SPARK-26023）
增强描述框架来描述查询的输出（SPARK-26982）
添加SHOW VIEWS命令（SPARK-31113）
改善SQL解析器的错误消息（SPARK-27901）
支持本地Prometheus监视（SPARK-29429）
将执行者内存指标添加到心跳中，并在执行者REST API中公开（SPARK-23429）
将执行程序指标和内存使用情况检测添加到指标系统（SPARK-27189）

文档和测试覆盖率增强

建立SQL参考（SPARK-28588）
构建WebUI用户指南（SPARK-28372）
构建用于SQL配置文档的页面（SPARK-30510）
添加Spark配置的版本信息（SPARK-30839）
PostgreSQL的端口回归测试（SPARK-27763）
二手服务器测试范围（SPARK-28608）
测试UDF（python UDF，pandas UDF，scala UDF）的测试范围（SPARK-27921）

Kubernetes中的Native Spark App

支持用户指定的驱动程序和执行程序窗格模板（SPARK-24434）
允许动态分配而无需外部随机播放服务（SPARK-27963）
使用K8S（SPARK-28487）进行更快速的动态分配
Kerberos对K8S上的Spark的支持（SPARK-23257）
Kubernetes资源管理器中的Kerberos支持（客户端模式）（SPARK-25815）
通过Hadoop兼容文件系统（SPARK-23153）支持客户端依赖性
在k8s后端（SPARK-26239）中添加可配置的身份验证秘密源
使用Kubernetes支持子路径安装（SPARK-25960）
将Python 3设置为K8S的PySpark绑定的默认设置（SPARK-24516）

其他值得注意的变化

Java 11支持（SPARK-24417）
Hadoop 3支持（SPARK-23534）
内置的Hive执行从1.2.1升级到2.3.7（SPARK-23710，SPARK-28723，SPARK-31381）
默认情况下使用Apache Hive 2.3依赖关系（SPARK-30034）
GA Scala 2.12并删除2.11（SPARK-26132）
改进在动态分配中使执行程序超时的逻辑（SPARK-20286）
随机存储的磁盘RDD块由随机播放服务提供服务，对于动态分配（SPARK-27677）被忽略
收购新的执行者以避免因黑名单而死机（SPARK-22148）
允许共享Netty的内存池分配器（SPARK-24920）
修复TaskMemoryManager和UnsafeExternalSorter $ SpillableIterator（SPARK-27338）之间的死锁
引入用于结构化流的AdmissionControl API（SPARK-30669）
Spark History主页性能改进（SPARK-25973）
加快和缩小SQL侦听器中的指标聚合（SPARK-29562）
从同一主机获取随机播放块时，请避免网络（SPARK-27651）
改进DistributedFileSystem的文件列表（SPARK-27801）
删除对hadoop 2.6的支持（SPARK-25016）

spark streaming

在Spark 3.0中，已弃用的类org.apache.spark.sql.streaming.ProcessingTime已被删除。使用org.apache.spark.sql.streaming.Trigger.ProcessingTime代替。同样，org.apache.spark.sql.execution.streaming.continuous.ContinuousTrigger已被删除以支持Trigger.Continuous，并且org.apache.spark.sql.execution.streaming.OneTimeTrigger已被隐藏以支持Trigger.Once。（SPARK-28199）
由于Scala 2.12的升级，DataStreamWriter.foreachBatch与Scala程序的源代码不兼容。您需要更新Scala源代码以消除Scala函数和Java lambda之间的歧义。（SPARK-26132）
编程指南：《Spark RDD编程指南》和《Spark SQL》，《数据框架和数据集指南》以及《结构化流编程指南》。

ML

多列支持添加到Binarizer（SPARK-23578），StringIndexer（SPARK-11215），StopWordsRemover（SPARK-29808）和PySpark QuantileDiscretizer（SPARK-22796）
支持基于树的特征转换（SPARK-13677）
添加了两个新的评估器MultilabelClassificationEvaluator（SPARK-16692）和RankEvaluator（SPARK-28045）
在DecisionTreeClassifier /回归（加入样品重量支撑火花19591），RandomForestClassifier /回归（火花9478），GBTClassifier /回归（火花9612），RegressionEvaluator（火花24102），BinaryClassificationEvaluator（火花24103），BisectingKMeans（火花-30351），KMeans（SPARK-29967）和GaussianMixture（SPARK-30102）
添加了用于PowerIterationClustering的R API（SPARK-19827）
添加了用于跟踪ML管道状态的Spark ML侦听器（SPARK-23674）
适合验证集已添加到Python的Gradient Boosted Trees（SPARK-24333）
添加了RobustScaler变压器（SPARK-28399）
增加了分解机分类器和回归器（SPARK-29224）
添加了高斯朴素贝叶斯（SPARK-16872）和互补朴素贝叶斯（SPARK-29942）
Scala和Python之间的ML函数奇偶校验（SPARK-28958）
在所有的分类模型中都将predictRaw公开。除LinearSVCModel（SPARK-30358）之外，所有其他分类模型中均公开了predictProbability

行为改变

Pyspark

在Spark 3.0中，Pyspark中的多类logistic回归现在（正确）将返回LogisticRegressionSummary，而不是子类BinaryLogisticRegressionSummary。在这种情况下，BinaryLogisticRegressionSummary公开的其他方法无论如何都不起作用。（SPARK-31681）
在Spark 3.0中，pyspark.ml.param.shared.Has * mixins不再提供任何set （self，value）setter方法，请改用相应的self.set（self.value）。有关详细信息，请参见SPARK-29093。（SPARK-29093）
编程指南：《机器学习库（MLlib）指南》。

SparkR

SparkR互操作性中的箭头优化（SPARK-26759）
通过向量化的R gapply（），dapply（），createDataFrame，collect（）来提高性能
R shell，IDE（SPARK-24572）的“渴望执行”
用于电源迭代群集的R API（SPARK-19827）
行为改变

弃用

弃用Python 2支持（SPARK-27884）
弃用R ❤️.4支持（SPARK-26014）
弃用UserDefinedAggregateFunction（Spark-30423）

bug修复

带dropDuplicates操作符的流查询可能无法使用Spark 2.x编写的检查点重新启动。这将在Spark 3.0.1中修复。（SPARK-31990）
在Web UI中，作业列表页面可能会挂起40秒钟以上。这将在Spark 3.0.1中修复。（SPARK-31967）
io.netty.tryReflectionSetAccessible在JDK9 +上为Arrow 设置（SPARK-29923）
通过将AWS开发工具包SDK升级到1.11.655，我们强烈建议在Hadoop 2.7.3上使用S3N文件系统（基于jets3t库的开源NativeS3FileSystem）的用户升级以使用AWS Signature V4并设置存储桶终结点或迁移到S3A（前缀“ s3a：//”）-jets3t库默认使用AWS v2，并使用s3.amazonaws.com作为端点。否则，在以下情况下可能会引发403 Forbidden错误：
如果用户访问包含“ +”字符的S3路径并使用旧版S3N文件系统，例如s3n：// bucket / path / + file。
如果用户已配置AWS V2签名以使用S3N文件系统签署对S3的请求。
请注意，如果您使用S3AFileSystem，例如（“ s3a：// bucket / path”）来访问S3Select或SQS连接器中的S3，则一切都会按预期进行。（SPARK-30968）

如果年份字段丢失，则使用模式字母’D’解析一年中的日期将返回错误的结果。这可能发生在SQL函数中，例如to_timestamp使用模式字符串将datetime字符串解析为datetime值的SQL函数。这将在Spark 3.0.1中修复。（SPARK-31939）
如果键的值为-0.0和0.0，则子查询内的Join / Window / Aggregate可能导致错误的结果。这将在Spark 3.0.1中修复。（SPARK-31958）
窗口查询可能会因模棱两可的自联接错误意外失败。这将在Spark 3.0.1中修复。（SPARK-31956）

spark3.0-新特性

spark 3.0 终于出了！！！

重大改变

性能提升

自适应查询执行（SPARK-31412）

动态分区修剪（SPARK-11150）

SQL兼容性增强

PySpark增强功能

可扩展性增强

连接器增强

功能增强

监控和可调试性增强

文档和测试覆盖率增强

Kubernetes中的Native Spark App

其他值得注意的变化

spark streaming

ML

Pyspark

SparkR

弃用

bug修复

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

[转帖]

python列出centos7内存使用前50的进程信息

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

一键自动化博客发布工具,用过的人都说好(掘金篇)

通义千问 2.5 “客串” ChatGPT4，你分的清吗？

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

Flink执行图

Java响应式编程

评估统计算法在银行伪造钞票检测中的价值

spark3.0-新特性

hive-hiveserver2配置負載均衡（nginx）

hadoop各版本特性

大數據-jdbc並行插入數據

java-操作csv文件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結