spark：sparksql：sparksql的agg函數，作用：在整體DataFrame不分組聚合

1、 agg(expers:column*) 返回dataframe類型，同數學計算求值
df.agg(max("age"), avg("salary"))
df.groupBy().agg(max("age"), avg("salary"))
2、 agg(exprs: Map[String, String])  返回dataframe類型，同數學計算求值 map類型的
df.agg(Map("age" -> "max", "salary" -> "avg"))
df.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))
3、 agg(aggExpr: (String, String), aggExprs: (String, String)*)  返回dataframe類型，同數學計算求值
df.agg(Map("age" -> "max", "salary" -> "avg"))
df.groupBy().agg(Map("age" -> "max", "salary" -> "avg"))
例子1：
scala> spark.version
res2: String = 2.0.2

scala> case class Test(bf: Int, df: Int, duration: Int, tel_date: Int)
defined class Test

scala> val df = Seq(Test(1,1,1,1), Test(1,1,2,2), Test(1,1,3,3), Test(2,2,3,3), Test(2,2,2,2), Test(2,2,1,1)).toDF
df: org.apache.spark.sql.DataFrame = [bf: int, df: int ... 2 more fields]

scala> df.show
+---+---+--------+--------+
| bf| df|duration|tel_date|
+---+---+--------+--------+
|  1|  1|       1|       1|
|  1|  1|       2|       2|
|  1|  1|       3|       3|
|  2|  2|       3|       3|
|  2|  2|       2|       2|
|  2|  2|       1|       1|
+---+---+--------+--------+

scala> df.groupBy("bf", "df").agg(("duration","sum"),("tel_date","min"),("tel_date","max")).show()
+---+---+-------------+-------------+-------------+
| bf| df|sum(duration)|min(tel_date)|max(tel_date)|
+---+---+-------------+-------------+-------------+
|  2|  2|            6|            1|            3|
|  1|  1|            6|            1|            3|

+---+---+-------------+-------------+-------------+
注意：此處df已經少了列duration和tel_date，只有groupby的key和agg中的字段

例子2：
import pyspark.sql.functions as func
agg(func.max("event_time").alias("max_event_tm"),func.min("event_time").alias("min_event_tm"))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark：sparksql：sparksql的agg函數，作用：在整體DataFrame不分組聚合

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

本地SSL證書過期輸入命令在IIS自動生成

java：阿里巴巴Java開發手冊中的DO、DTO、BO、AO、VO、POJO定義

Spark：持久化存儲等級選取策略 /persist() / cache() /Storage Level

Spark：RDD checkpoint容錯機制

Spark：對於提交命令的理解

scala：佔位符的使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結