台部落breeze

文章目錄背景1. 只使用 sql 實現2. 使用 udf 的方式3. 使用高階函數的方式使用Array 高階函數1. transform2. filter3. exists4. aggregate5. zip_with複雜類型內置函數

2019-04-03 22:47:33

文章目錄背景skew hint實現方式原理用法語法編譯&配置Test侷限性參考背景使用 Join 時，如果出現數據傾斜就會導致OOM或者單task長時間執行的現象，如果是大小表關聯的場景，還可以使用 MAPJOIN 的方式來解決，

2019-03-12 13:07:23

接上篇文章 AMD & Intel 機器 Spark 性能測試文章目錄硬件配置測試角色分配線上sql任務模擬使用 sysbench 對內存讀寫進行測試結果硬件配置共6臺機器，每個對照組各三臺。 intel 5118 內存爲6通

2019-01-26 03:11:14

文章目錄爲什麼要引入 Alluxio讀取數據的效率取決於哪些因素計算&存儲分離混合部署分離部署測試環境理論性能提升ScanPrestoTPC-DS總結爲什麼要引入 Alluxio 通過監控發現計算節點的物理內存有富餘，不需要增加額

2019-01-04 04:11:56

文章目錄簡介測試tpcds-kitspark-sql-perf生成數據執行查詢查詢結果TPC-DSFAQ 簡介 spark-sql-perf 是一個 spark sql 性能測試框架，可以用來進行一些基準測試。測試環境： spar

2019-01-03 04:15:06

本地配置 pyspark 開發環境開發工具 Java spark-2.3.0-bin-2.6.0-cdh5.7.0 PyCharm 準備工作下載 Java/spark包/PyCharm 等配置 PyCharm Confi

2018-12-14 02:12:23

文章目錄基本概念影響生命週期的因素參考基本概念 Kerberos ticket 有兩種生命週期，ticket timelife (票據生命週期) 和 renewable lifetime (可再生週期)。當 ticket l

2018-11-28 15:32:03

文章目錄背景jvm-profiler分析總結參考背景在生產環境中，爲了提高任務提交的響應速度，我們研發了類似 Spark Jobserver 的服務，各種類型的 spark 任務複用已經啓動的 Spark Application，

2018-11-04 12:37:00

文章目錄配置硬件配置軟件配置Benchmark總結配置硬件配置 INTEL 機型與 AMD 機型除了CPU其餘配置相同。 256G DRAM 8TB 7.2k HDD * 11 960G SSD * 1 2 * 10Gbps

2018-10-10 11:06:30

文章目錄測試目的測試配置測試方法Benchmark總結容量說明成本相關適合的場景不適合的場景參考測試目的如果不清楚什麼是Optane，可以先了解一下：Optane介紹使用 Intel Memory Drive Technolog

2018-09-30 11:16:27

文章目錄概述環境準備安裝配置運行配置查看報告概述項目地址: Intel-hadoop/HiBench Hibench 是 Intel 開源的大數據基準測試工具，可以評估不同大數據框架的速度，吞吐量和系統資源利用率。包括 Sort,

2018-09-21 10:34:48

背景每個開發者都想了解自己任務運行時的狀態，便於調優及排錯，Spark 提供的 webui 已經提供了很多信息，用戶可以從上面瞭解到任務的 shuffle，任務運行等信息，但是運行時 Executor JVM 的狀態對用戶來說是個黑

2018-09-15 01:47:01

背景開源產品要想用的得心應手免不了要根據公司的業務/場景對其做一些改造，如果直接在源碼的層面對其修改，當下可能用的很省心，但後期與社區代碼的合併，版本的升級的時候就相當糟心了。對於一個平臺來說，使用者對技術本身是不敏感的，所以我們

2018-09-06 08:26:56

一. 運維 1. Master掛掉,standby重啓也失效 Master默認使用512M內存，當集羣中運行的任務特別多時，就會掛掉，原因是master會讀取每個task的event log日誌去生成spark ui，內存不足自然會OOM

2018-08-22 03:52:52

配置所有運行節點安裝 pyarrow ，需要 >= 0.8 爲什麼會有 pandas UDF 在過去的幾年中，python 正在成爲數據分析師的默認語言。一些類似 pandas,numpy,statsmodel,scikit-learn

2018-08-22 03:52:52