原创 Spark Sql 複雜類型高階函數

文章目錄背景1. 只使用 sql 實現2. 使用 udf 的方式3. 使用高階函數的方式使用Array 高階函數1. transform2. filter3. exists4. aggregate5. zip_with複雜類型內置函數

原创 使用 spark sql extensions 實現 skew join

文章目錄背景skew hint實現方式原理用法語法編譯&配置Test侷限性參考 背景 使用 Join 時,如果出現數據傾斜就會導致OOM或者單task長時間執行的現象,如果是大小表關聯的場景,還可以使用 MAPJOIN 的方式來解決,

原创 AMD & Intel 機器 Spark 性能測試2

接上篇文章 AMD & Intel 機器 Spark 性能測試 文章目錄硬件配置測試角色分配線上sql任務模擬使用 sysbench 對內存讀寫進行測試結果 硬件配置 共6臺機器,每個對照組各三臺。 intel 5118 內存爲6通

原创 Alluxio 性能測試

文章目錄爲什麼要引入 Alluxio讀取數據的效率取決於哪些因素計算&存儲分離混合部署分離部署測試環境理論性能提升ScanPrestoTPC-DS總結 爲什麼要引入 Alluxio 通過監控發現計算節點的物理內存有富餘,不需要增加額

原创 spark-sql-perf

文章目錄簡介測試tpcds-kitspark-sql-perf生成數據執行查詢查詢結果TPC-DSFAQ 簡介 spark-sql-perf 是一個 spark sql 性能測試框架,可以用來進行一些基準測試。 測試環境: spar

原创 Mac pySpark IDE 環境配置

本地配置 pyspark 開發環境 開發工具 Java spark-2.3.0-bin-2.6.0-cdh5.7.0 PyCharm 準備工作 下載 Java/spark包/PyCharm 等 配置 PyCharm Confi

原创 Kerberos ticket 生命週期

文章目錄基本概念影響生命週期的因素參考 基本概念 Kerberos ticket 有兩種生命週期,ticket timelife (票據生命週期) 和 renewable lifetime (可再生週期)。 當 ticket l

原创 使用 jvm-profiler 分析 spark 內存使用

文章目錄背景jvm-profiler分析總結參考 背景 在生產環境中,爲了提高任務提交的響應速度,我們研發了類似 Spark Jobserver 的服務,各種類型的 spark 任務複用已經啓動的 Spark Application,

原创 AMD & Intel 機器 Spark 性能測試

文章目錄配置硬件配置軟件配置Benchmark總結 配置 硬件配置 INTEL 機型與 AMD 機型除了CPU其餘配置相同。 256G DRAM 8TB 7.2k HDD * 11 960G SSD * 1 2 * 10Gbps

原创 Spark Optane IMDT 測試

文章目錄測試目的測試配置測試方法Benchmark總結容量說明成本相關適合的場景不適合的場景參考 測試目的 如果不清楚什麼是Optane,可以先了解一下:Optane介紹 使用 Intel Memory Drive Technolog

原创 使用 Hibench 對 Spark 進行基準測試

文章目錄概述環境準備安裝配置運行配置查看報告 概述 項目地址: Intel-hadoop/HiBench Hibench 是 Intel 開源的大數據基準測試工具,可以評估不同大數據框架的速度,吞吐量和系統資源利用率。包括 Sort,

原创 使用 Prometheus 和 Grafana 監控 Spark 應用

背景 每個開發者都想了解自己任務運行時的狀態,便於調優及排錯,Spark 提供的 webui 已經提供了很多信息,用戶可以從上面瞭解到任務的 shuffle,任務運行等信息,但是運行時 Executor JVM 的狀態對用戶來說是個黑

原创 使用 aspectj 對 spark sql 進行攔截

背景 開源產品要想用的得心應手免不了要根據公司的業務/場景對其做一些改造,如果直接在源碼的層面對其修改,當下可能用的很省心,但後期與社區代碼的合併,版本的升級的時候就相當糟心了。 對於一個平臺來說,使用者對技術本身是不敏感的,所以我們

原创 Spark排錯與優化

一. 運維 1. Master掛掉,standby重啓也失效 Master默認使用512M內存,當集羣中運行的任務特別多時,就會掛掉,原因是master會讀取每個task的event log日誌去生成spark ui,內存不足自然會OOM

原创 PySpark Pandas UDF

配置 所有運行節點安裝 pyarrow ,需要 >= 0.8 爲什麼會有 pandas UDF 在過去的幾年中,python 正在成爲數據分析師的默認語言。一些類似 pandas,numpy,statsmodel,scikit-learn