1,python的碼農涉獵Hadoop,首選pyspark
2,開發spark應用,需要知道的幾個點:
【1】SQL語句:insert into / overwirte
【2】DataFrame的常用API
【3】UDF函數
【4】Kafka組件使用
【5】Avro序列化
【6】RDD的坑:謹防嵌套使用
1,python的碼農涉獵Hadoop,首選pyspark
2,開發spark應用,需要知道的幾個點:
【1】SQL語句:insert into / overwirte
【2】DataFrame的常用API
【3】UDF函數
【4】Kafka組件使用
【5】Avro序列化
【6】RDD的坑:謹防嵌套使用