原创 Kafka_Kafka速度爲什麼那麼快

  原文地址 :https://www.cnblogs.com/binyue/p/10308754.html      好久沒有用Kafka了,對知識梳理一下:     Kafka的消息是保存或緩存在磁盤上的,一般認爲在磁盤上讀寫數據是會

原创 Spark_Spark 中 checkpoint 的正確使用方式 以及 與 cache區別

1.Spark性能調優:checkPoint的使用 https://blog.csdn.net/leen0304/article/details/78718346   概述     checkpoint的意思就是建立檢查點,類似於快照,例

原创 HIVE_HIVE函數_窗口函數_LAG()/LEAD() 詳解

  參考文章: 1.ORALCE函數:LAG()和LEAD() 分析函數詳解、 https://blog.csdn.net/pelifymeng2/article/details/70313943     LAG, LEAD 函數簡單介紹

原创 Java_多線程_創建多線程的4種方式 與 線程狀態

  參考文章: 1.創建多線程有四種方式 https://blog.csdn.net/YTREE_BJ/article/details/92761104   2.創建多線程的4種方式 https://www.cnblogs.com/zho

原创 Spark_Map與MapPartition 的區別_未完待續

  參考文章 :https://www.cnblogs.com/schoolbag/p/9640990.html   在Spark中有map和mapPartitions算子,處理數據上,有一些區別 主要區別:  map是對rdd中的每一個

原创 Java_Java多線程_Java線程池核心參數 與 手動創建線程池

    參考文章: 1.淺談線程池ThreadPoolExecutor核心參數 https://www.cnblogs.com/stupid-chan/p/9991307.html 2.Java線程池 ThreadPoolExecutor

原创 Hive_SQL_複雜SQL_計算最大在線人數

原文鏈接:  1.Hive SQL複雜場景實現(2) —— 實時/最大在線人數 https://blog.csdn.net/adrian_wang/article/details/89840671   背景    之前遇到這個問題:,能不

原创 HIVE_Hive Function_STR_TO_MAP 函數詳解

參考文章 : https://blog.csdn.net/yuanyangsdo/article/details/64441165   本文主要講解下 HIVE 中 str_to_map 如何使用   函數介紹   我們先看下函數介紹:

原创 Spark_Spark中的幾種Shuffle 以及工作原理, 含HashShuffle

Base Spark 2.0 +   參考文章 1.spark基礎之shuffle機制和原理分析 https://blog.csdn.net/zhanglh046/article/details/78360762 2.Spark Shuf

原创 Spark_Spark_RDD等_Shuffle調優_相關參數

 參考文章 :  1.大數據技術之_19_Spark學習_07_Spark 性能調優 + 數據傾斜調優 + 運行資源調優 + 程序開發調優 + Shuffle 調優 + GC 調優 + Spark 企業應用案例 https://blog.

原创 Linux_Linux查看某個進程下面的線程

  線程基本概念         線程是現代操作系統上進行並行執行的一個流行的編程方面的抽象概念。當一個程序內有多個線程被叉分出用以執行多個流時,這些線程就會在它們之間共享特定的資源(如,內存地址空間、打開的文件),以使叉分開銷最小化,並

原创 Kafka_Kafka 中 zookeeper 具體是做什麼的?

  參考文章 1.kafka 中 zookeeper 具體是做什麼的?  https://www.cnblogs.com/yogoup/p/12000545.html    最近回顧了下 kafka 的相關部分的知識,既然 kafka 並

原创 Hive_HQL_複雜SQL_連續發單天數

原文地址: 1.Hive SQL複雜場景實現(1) —— 連續發單天數 https://blog.csdn.net/Adrian_Wang/article/details/89791948      至今在數據分析崗摸爬滾打已有一年,尚且

原创 Spark_Spark中RDD介紹

今天面試被問到了這個問題,感覺自己回答的並不好。寫一下這篇文章記錄一下: https://www.jianshu.com/p/6411fff954cf   Spark基本概念 RDD:彈性分佈式數據集 (Resilient Distrib

原创 Spark_Spark JOIN的種類 以及選擇依據

參考文章 :   1.Spark join種類(>3種)及join選擇依據 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/106066081     Spark 內部JOIN 大致