原创 spark的jvm調優

1、實際應用 val sc = new SparkContext(new SparkConf(). setAppName("product3_source"). set("spark.serializer", "org.apac

原创 flink和spark的區別

1、spark無狀態,flink有狀態 spark本身是無狀態的,所以我們可以把它看成一個rdd一個算子一個rdd的去處理,就是說可以看成分段處理。 但是flink是事件驅動型應用是一類具有狀態的應用,我們要把它看成一個個event記錄去

原创 scala單例對象和伴生對象的關係,伴生對象和伴生類的關係

1、單例對象和伴生對象的關係 scala中的類不能定義靜態成員,而代之以定義單例對象來替代。 單例對象通過object關鍵字來聲明。 單例對象中的所有方法,可以直接通過object單例對象的名字直接來調用。 單例對象在第一次被訪問時纔會

原创 git cherry-pick的使用

1、作用: 把一個分支的某個提交點複製到另一個分支。 2、案例: 測試分支或者是開發分支:newboot-test-onlinedb 線上分支:newboot 目標:將測試分支的4個commit點合併到線上分支。 第一步:將代碼切換到線上

原创 Spark on yarn工作模式。 Client和Cluster兩種運行模式的工作流程、基本概念。spark工作流程

  目錄 1、首先介紹yarn的模型圖 (1)、yarn 模型圖 (2)、yarn的流程如下: 2、cluster模式下提交任務流程 (1)、流程圖如下 (2)、工作流程如下: 3、在Client模式下,Driver進程會在當前客戶端啓動

原创 spark數據傾斜解決方案

1、適當提高reducer端的並行度   適用場景: 如果某個 Task 有 100個 Key ·且數據量特別大,就極有可能導致 OOM 或者任務運行特別慢,此時如果把並行度變大,則可以分解 該 Task 的數據量,例如,把原本 Task

原创 回溯算法:一種類似數的先序遍歷(左中右)的搜索算法

解決一個回溯問題,實際上就是一個決策樹的遍歷過程。你只需要思考 3 個問題: 1、路徑:也就是已經做出的選擇。 2、選擇列表:也就是你當前可以做的選擇。 3、結束條件:也就是到達決策樹底層,無法再做選擇的條件。 如果你不理解這三個詞語的解

原创 spark中excutor的個數、內存大小、core的個數、task的個數、分區的個數、集羣的資源情況等的關係

目錄   1、Spark性能調優之資源分配  大體上這兩個方面:core    mem   (1)、分配哪些資源? (2)、在哪裏分配這些資源? (3)、調節到多大,算是最大呢? (4)、爲什麼調節了資源以後,性能可以提升? 2、分區個數

原创 linux scp命令

1、實踐 本機11.160.50.10 scp -r /opt/scripts/qtt [email protected]:/opt/scripts/qtt 前提需要把50.10的公鑰拷貝到50.11的公鑰目錄下,10.160.500.1

原创 fink DataStream算子及案例

目錄 1、分類 DataStream keyedStream window Stream 重要案例 DataStream ProcessFunction WindowAllDataStream → AllWindowedStream ke

原创 spark知識點

1、spark爲什麼比hadoop計算快? (1)、落地方式不同 mapreduce任務每一次處理完成之後所產生的結果數據只能夠保存在磁盤,後續有其他的job需要依賴於前面job的輸出結果,這裏就只能夠進行大量的io操作獲取得到,性能就比

原创 Redis遍歷所有key的命令 SCAN

SCAN 每次執行都只會返回少量元素,所以可以用於生產環境,不會阻塞服務器的問題。 1、SCAN命令是一個基於遊標的迭代器。 這意味着命令每次被調用都需要使用上一次這個調用返回的遊標作爲該次調用的遊標參數,以此來延續之前的迭代過程。當服

原创 hive中的lateral view 與 explode函數的使用

原文鏈接:https://blog.csdn.net/guodong2k/article/details/79459282 大數據技術普及後,很多類似pv,uv的數據,在業務系統中是存貯在非關係

原创 linux安裝jdk8

1、上傳jdk8 2、解壓jdk8 tar -zxvf jdk-8u161-linux-x64.tar.gz  3、使用 nohup /opt/scripts/jdk1.8.0_162/bin/java -jar /opt/script

原创 redis內存數據庫:筆記4 jedis操作5個數據類型

目錄   1、jedis單例連接池和操作String和map類型的Value的實戰 2、String類型 3、List類型 4、Hash類型 1、jedis單例連接池和操作String和map類型的Value的實戰 public cla