台部落illcol

關於分配器介紹內容來自官網窗口分配的概念窗口分配程序（Window Assigners）定義如何將元素分配給窗口。通過window(...) (for keyed streams)或windowAll()for non-keyed s

2020-03-24 13:10:23

使用flink FlinkKafkaProducer 往kafka寫入數據的時候要求使用EXACTLY_ONCE語義本以爲本以爲按照官網寫一個就完事，但是卻報錯了代碼 package com.meda.test import org.

2019-12-25 13:01:47

jstat 用於查看服務器上某個服務的GC情況。一般使用方式jstat –gcpid或jstat –utilpid 時間間隔—每個一定時間（指定的時間間隔）輸出一次進程pid的內存情況及gc情況。類加載統計(-class) L

2019-10-22 13:01:53

背景之前的博客：Spark：DataFrame寫HFile （Hbase）一個列族、一個列擴展一個列族、多個列用spark 1.6.0 和 hbase 1.2.0 版本實現過spark BulkLoad Hbase的功能,並且擴展了其只

2019-09-19 13:02:16

添加一塊磁盤參考上一篇博文VMware Workstation 添加磁盤掛載目錄(centos) 查看當前磁盤掛載情況 [root@node1 ~]# fdisk -l Disk /dev/sda: 536.9 GB, 53

2019-09-04 13:01:30

參考文檔： Linux命令大全需求：測試環境虛擬機某個目錄下空間不足，準備通過添加一塊磁盤，並將該目錄掛載到該磁盤前面幾步在測試服務器上操作的，截圖困難，所以網上找了幾張設置圖關閉虛擬機（沒測試過不關閉的情況）虛擬機中添加一塊新的

2019-08-27 13:01:15

組建信息組件版本下載地址 maven 3.6.1 https://maven.apache.org/ jdk jdk1.8.0 https://www.oracle.com/technetwork/java/java

2019-08-14 13:02:26

Spark 版本 2.3 文中測試數據（json） {"name":"lillcol", "age":24,"ip":"192.168.0.8"} {"name":"adson", "age":100,"ip":"192.168.255.1

2019-07-28 13:02:31

Shuffle 概述影響Spark性能的大BOSS就是shuffle，因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。因此，如果要讓作業的性能更上一層樓，就有必要對 shuffle 過程進行調優。當然，影響 Spark 性

2019-07-28 13:02:28

什麼是數據傾斜？ Spark 的計算抽象如下數據傾斜指的是：並行處理的數據集中，某一部分（如 Spark 或 Kafka 的一個 Partition）的數據顯著多於其它部分，從而使得該部分的處理速度成爲整個數據集處理的瓶頸。如果數據傾

2019-07-28 13:02:28

SparkContext 是什麼? 驅動程序使用SparkContext與集羣進行連接和通信，它可以幫助執行Spark任務，並與資源管理器(如YARN 或Mesos)進行協調。使用SparkContext，可以訪問其他上下文，比如SQ

2019-07-28 13:02:28

讀 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} /** * @author Administra

2019-07-28 13:02:28

本文將學習如何使用java創建Storm拓撲並將其部署到Storm集羣。 Storm集羣的組件 Storm集羣類似於Hadoop集羣，只不過 Hadoop 上運行"MapReduce jobs"， Storm 上運行"topologies"

2019-07-19 13:01:11

本文參考：黑澤君相關博客本文是我總結日常工作中遇到的坑，結合黑澤君相關博客，選取、補充了部分內容。表的優化小表join大表、大表join小表將key相對分散，並且數據量小的表放在join的左邊，這樣可以有效減少內存溢出錯誤發生的機率

2019-07-17 13:01:17

本文參考：黑澤君相關博客本文是我總結日常工作中遇到的坑，結合黑澤君相關博客，選取、補充了部分內容。開啓 map 輸出階段壓縮可以減少 job 中 map 和 Reduce task 間數據傳輸量。查看配置命令如下，對應的設置只要加上相

2019-07-17 13:01:16