Spark問答合集及解決方法,轉自阿里雲開發者問答,大家有問題可以移步阿里雲問答模塊:https://developer.aliyun.com/ask/
- 如何使用spark將kafka主題中的writeStream數據寫入hdfs?
https://yq.aliyun.com/ask/493211 - 當Spark在S3上讀取大數據集時,在“停機時間”期間發生了什麼?
https://yq.aliyun.com/ask/493212 - 從Redshift讀入Spark Dataframe(Spark-Redshift模塊)
https://yq.aliyun.com/ask/493215 - 在初始化spark上下文後,在運行時更改pyspark的hadoop配置中的aws憑據
https://yq.aliyun.com/ask/493217 - Window.rowsBetween - 僅考慮滿足特定條件的行(例如,不爲null)
https://yq.aliyun.com/ask/493220 - spark的RDD內容直接用saveAsTextFile保存到hdfs時會出現中文亂碼現象,但在控制檯用foreach打印該RDD數據顯示是正常的,該怎麼解決呢?
https://yq.aliyun.com/ask/494418 - 請問一下如何能查看spark struct streaming內存使用情況呢?
https://yq.aliyun.com/ask/494417 - 使用spark 2.3 structed streaming 時 checkpoint 頻繁在HDFS寫小文件,塊數到達百萬級別 ,這個怎麼優化下?
https://yq.aliyun.com/ask/494415 - 請教大家一個問題,spark stream連kafka,在web頁面的stream標籤,顯示好多batch處於queued狀態,這些batch是已經把數據從kafka讀取進rdd,等待處理,還是還沒有從kafka讀取數進rdd?
https://yq.aliyun.com/ask/493702 - 爲什麼我使用 dropDuplicates()函數報錯
Caused by: java.lang.NoSuchMethodError: org.codehaus.commons.compiler.Location.(Ljava/lang/String;II)V ?
https://yq.aliyun.com/ask/493700
- 請教一下,我hive中數據大小爲16g,通過importtsv生成了hfile 文件,導入到hbase中了,數據變成130多g,還有什麼更好的辦法嗎?
https://yq.aliyun.com/ask/493698 - jdbc 連接spark thrift server 如何獲取日誌?
https://yq.aliyun.com/ask/493582 - Spark如何從一行中僅提取Json數據?
https://yq.aliyun.com/ask/493581 - pyspark - 在json流數據中找到max和min usign createDataFrame
https://yq.aliyun.com/ask/493234 - 如何計算和獲取Spark Dataframe中唯一ID的值總和?
https://yq.aliyun.com/ask/493231 - 如何將csv目錄加載到hdfs作爲parquet?
https://yq.aliyun.com/ask/493224 - 無法使用Spark在Datastax上初始化圖形
https://yq.aliyun.com/ask/493222 - 使用PySpark計算每個窗口的用戶數
https://yq.aliyun.com/ask/493221 - sql語句不支持delete操作,如果我想執行delete操作該怎麼辦?
https://yq.aliyun.com/ask/494420 - spark streaming 和 kafka ,打成jar包後((相關第三方依賴也在裏面)),放到集羣上總是報StringDecoder 找不到class
https://yq.aliyun.com/ask/494421 - json字符串中有重名但大小寫不同的key,使用play.api.libs.json.Json.parse解析json沒有報錯,但是spark-sql使用org.openx.data.jsonserde.JsonSerDe時,會自動將key轉爲小寫,然後putOnce函數報錯Duplicate key
https://yq.aliyun.com/ask/494423 - spark DataFrame寫入HDFS怎麼壓縮?
https://yq.aliyun.com/ask/495552 - 使用Spark On Hive時,動態的將數據插入到Hive中,但是在Hive的數據表下會有很多文件,這個可以怎麼設置一下呢?
https://yq.aliyun.com/ask/495927