原创 flink自定義窗口分配器 周、月

關於分配器介紹內容來自官網 窗口分配的概念 窗口分配程序(Window Assigners)定義如何將元素分配給窗口。 通過window(...) (for keyed streams)或windowAll()for non-keyed s

原创 Flink 1.9 FlinkKafkaProducer 使用 EXACTLY_ONCE 錯誤記錄

使用flink FlinkKafkaProducer 往kafka寫入數據的時候要求使用EXACTLY_ONCE語義 本以爲本以爲按照官網寫一個就完事,但是卻報錯了 代碼 package com.meda.test import org.

原创 jvm監控命令-jstat

jstat 用於查看服務器上某個服務的GC情況。 一般使用方式jstat –gcpid或jstat –utilpid 時間間隔—每個一定時間(指定的時間間隔)輸出一次進程pid的內存情況及gc情況。 類加載統計(-class) L

原创 Spark、BulkLoad Hbase、單列、多列

背景 之前的博客:Spark:DataFrame寫HFile (Hbase)一個列族、一個列擴展一個列族、多個列 用spark 1.6.0 和 hbase 1.2.0 版本實現過spark BulkLoad Hbase的功能,並且擴展了其只

原创 centos 根目錄擴容

添加一塊磁盤 參考上一篇博文VMware Workstation 添加磁盤 掛載目錄(centos) 查看當前磁盤掛載情況 [root@node1 ~]# fdisk -l Disk /dev/sda: 536.9 GB, 53

原创 VMware Workstation 添加磁盤 掛載目錄(centos)

參考文檔: Linux命令大全 需求:測試環境虛擬機某個目錄下空間不足,準備通過添加一塊磁盤,並將該目錄掛載到該磁盤 前面幾步在測試服務器上操作的,截圖困難,所以網上找了幾張設置圖 關閉虛擬機(沒測試過不關閉的情況) 虛擬機中添加一塊新的

原创 maven+scala+idea 環境構建

組建信息 組件 版本 下載地址 maven 3.6.1 https://maven.apache.org/ jdk jdk1.8.0 https://www.oracle.com/technetwork/java/java

原创 Spark 自定義函數(udf,udaf)

Spark 版本 2.3 文中測試數據(json) {"name":"lillcol", "age":24,"ip":"192.168.0.8"} {"name":"adson", "age":100,"ip":"192.168.255.1

原创 Spark 調優之ShuffleManager、Shuffle

Shuffle 概述 影響Spark性能的大BOSS就是shuffle,因爲該環節包含了大量的磁盤IO、序列化、網絡數據傳輸等操作。 因此,如果要讓作業的性能更上一層樓,就有必要對 shuffle 過程進行調優。 當然,影響 Spark 性

原创 Spark 調優之數據傾斜

什麼是數據傾斜? Spark 的計算抽象如下 數據傾斜指的是:並行處理的數據集中,某一部分(如 Spark 或 Kafka 的一個 Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成爲整個數據集處理的瓶頸。 如果數據傾

原创 SparkSession、SparkContext、SQLContext和HiveContext之間的區別。

SparkContext 是什麼? 驅動程序使用SparkContext與集羣進行連接和通信,它可以幫助執行Spark任務,並與資源管理器(如YARN 或Mesos)進行協調。 使用SparkContext,可以訪問其他上下文,比如SQ

原创 Spark 讀寫數據、抽象轉換 拾遺

讀 package com.test.spark import org.apache.spark.sql.{Dataset, Row, SaveMode, SparkSession} /** * @author Administra

原创 Storm 測試

本文將學習如何使用java創建Storm拓撲並將其部署到Storm集羣。 Storm集羣的組件 Storm集羣類似於Hadoop集羣,只不過 Hadoop 上運行"MapReduce jobs", Storm 上運行"topologies"

原创 hive 總結四(優化)

本文參考:黑澤君相關博客 本文是我總結日常工作中遇到的坑,結合黑澤君相關博客,選取、補充了部分內容。 表的優化 小表join大表、大表join小表 將key相對分散,並且數據量小的表放在join的左邊,這樣可以有效減少內存溢出錯誤發生的機率

原创 hive 總結三(壓縮)

本文參考:黑澤君相關博客 本文是我總結日常工作中遇到的坑,結合黑澤君相關博客,選取、補充了部分內容。 開啓 map 輸出階段壓縮可以減少 job 中 map 和 Reduce task 間數據傳輸量。 查看配置命令如下,對應的設置只要加上相