台部落烫烫烫口

引子網上很多教程沒搞懂“改變開始複製的數量”這個意思，將數量設置在輸入端，導致不僅沒有進行多線程併發，反而變成複製讀入多分數據導致開銷增大，而且還造成了數據重複寫入，這樣還敢說性能提升，真是有鬼了。實際效果單線程效果

2020-06-26 15:07:49

版本 spark 2.1.0 前言利用spark-submit提交作業的時候，根據各種天花亂墜的教程我們會指定一大堆參數，藉以提升併發和執行性能，比如 –executor-cores 4 –num-executors 4

2020-06-26 15:07:49

版本 spark2.1.0 現象繼續上一章，利用effective_time字段進行重新分區導致了任務執行的傾斜本章就要針對這個問題進行處理。問題定位首先看下repartition是如何進行重分區的。由partiti

2020-06-26 15:07:48

目標在不使用activiti explore提供的流程實例圖diagram-viewer/index.html以及其繁雜的BaseProcessDefinitionDiagramLayoutResource四個類的情況下，自定義

2020-05-19 19:16:47

該場景主要適用於僅查詢索引字段的情況，否則其餘情況一概同等而論。但是大部分應用場景我們需要將幾乎所有字段讀取出來，所以select *和select xxx差別不大。 1、展示索引字段和非索引字段，全表掃描 2、展示使用索

2020-02-21 18:53:56

業務目的全量離線運算統計，結果寫入oracle 依賴版本 spark 2.0.1 hive 1.1.0 問題執行時task數量過多 hive動態分區小文件過多測試環境5運算節點，內存分別爲12G，運行30萬測試數據不斷髮生

2019-09-19 23:01:06

背景很多文章中都聲稱，爲了優化效率，可以使用exists去替代in，但實際上在一些特殊業務情況下，兩者並不能等同。實例今天剛好記錄一下碰到的情況，以ORACLE爲例，EXISTS用於校驗子查詢是否爲true，而in用於判斷條

2019-06-28 01:01:23

背景需要使用spark腳本讀寫hive數據又需要讓hive mr引擎使用spark，從而從kettle入口觸發hive交互時hive能夠用到spark性能版本依賴原生apache : hive 2.3.3 spark 2.

2019-06-11 05:23:38

業務需求 1、從數據庫中讀取表內容作爲入參； 2、根據入參讀取http接口並獲取返回數據； 3、解析返回的json並提取其中的xml字段； 4、解析該xml字段； 5、入庫。使用組件表輸入用於讀取數據庫內容、rest client

2019-03-30 00:26:59

閒來使用正則表達式做了一個HTML頁面的數據爬蟲，主要是根據頁面規則去匹配相應字段內容，記錄一下。利用HttpGet獲取頁面內容，使用pattern獲取匹配內容 CloseableHttpClient client = HttpCl

2018-12-19 08:52:10

版本依賴 spark.version：2.1.0 hadoop.version：2.6.5 springboot-mybatis.version：1.1.1 springboot：1.5.10 實現功能通過HTTP提交job作業請

2018-08-21 23:35:19

版本 kettle 6.1 hbase 1.2.6 hive 2.2.0 hadoop 2.6.5 數據架構業務數據通過kafka流向業務數據處理引擎，過濾後的數據寫入hbase，kettle job定期執行作業，讀取hive運算

2018-08-21 23:35:18

背景因業務需求需要實現指定多人來進行一個task，傳統做法是使用網關來達到目的，但是顯示情況是會審的人員是可變且易變的，比如我指定安全組來做一個檢驗任務，安全組今天可能是5個人，明天又有人離職變成了3個人，因此網關不大適合該場景，這裏就

2018-08-21 23:35:18

一、服務器環境準備 tips:本例作爲測試環境，只使用了兩臺服務器，實際生產環境至少會有三臺以上服務器作一主多從。如果要配置 hadoop JournalNode zookeeper高可用，則至少需要五臺服務器。服務器cento

2018-08-21 23:35:17

業務背景因爲公司業務，需要進行國內-海外部分業務數據的同步，早期本來方案選定直接做MySQL主從，但是考慮到同步過程中不需要同步所有數據庫表，且單表中也需要根據業務情況，篩選出海外的數據，因此MYSQL直接做主從複製不符合預期。最終選型

2018-08-21 23:35:17