原创 Spark 遇到OOM怎麼解決

Spark中的OOM問題不外乎以下兩種情況 map執行中內存溢出 shuffle後內存溢出 Spark 內存模型:        Spark在一個Executor中的內存分爲三塊:                            

原创 Flink之window函數詳解

1、官網:  https://ci.apache.org/projects/flink/flink-docs-release-1.7/concepts/programming-model.html#windows      (建議大家多看

原创 MySQL存儲程序中觸發器和存儲過程的使用

                                                                                         --最近在項目中總是用到MySQL的觸發器和存儲過程,爲了加

原创 Spark SQL讀取HBase中數據的優化

     在項目過程中中,我們會經常使用Spark SQL去查詢/分析HBase中的數據,內置的讀取數據源使用的是TableInputFormat ,這個TableInputFormat 有一些缺點: 一個Task裏面只能啓動一個Scan

原创 Python連接MySQL進行DML操作

1、安裝PyMySQL 本地:pip install pymysql Anaconda:conda install pymysql 2、插入數據 # coding=gbk import pymysql from pymysql.cu

原创 HBase的優化(參數)

配置優化zookeeper.session.timeout默認值:3分鐘(180000ms)說明:RegionServer與Zookeeper間的連接超時時間。當超時時間到後,ReigonServer會被Zookeeper從RS集羣清單中

原创 Shell常用操作

1、參數    shell語言,採用$0,$1,$2..等方式獲取腳本命令行傳入的參數,值得注意的是,$0獲取到的是腳本路徑以及腳本名,後面按順序獲取參數,當參數超過10個時(包括10個),需要使用${10},${11}....才能獲取到

原创 Vsql命令行命令詳解

基本格式: Vsql   [連接選項] [常規選項] [輸入輸出選項] 1、常規選項:   -d DBNAME指定要連接的數據庫名稱(默認值:“A”)   -c COMMAND只運行單個命令(SQL或內部)並退出   -f FILE

原创 Kafka中的分區分配(面試點)

“請你簡述一下Kafka中的分區分配”              以前在面試中遇到了這個問題, 當時不太清楚balabala說了一大堆,現在總結下,希望對大家有用。 在Kafka中,分區分配是一個很重要的概念,卻往往會被讀者忽視,它會影響

原创 Oracle存儲過程的使用

          最近在項目中需要寫存儲過程,於是在自己學習了一段時間,總結下,希望對大家學習有些幫助; 先上模板: create or replace procedure 要創建的存儲過程名稱(入參a in varchar2, 出參

原创 Flink版WordCount(Streaming and Batch)

Flink 程序開發步驟 1:獲得一個執行環境 2:加載/創建 初始化數據 3:指定操作數據的transaction算子 4:指定把計算好的數據放在哪 5:調用execute()觸發執行程序 注意:Flink程序是延遲計算的,只有最後調用

原创 Vertica常用SQL操作

一、查詢與修改 1、查詢 --導出表的結構: select export_objects('','app_z.test') --收集統計信息 select analyze_statistics('app_z.test') --重置

原创 linux 三大劍客 之grep

grep 1、簡介      grep 是一種強大的文本搜索工具,它能使用正則表達式搜索文本,並把匹配的行打印出來。通常grep有三種版本grep、egrep(等同於grep -E)和fgrep。egrep爲擴展的grep,fgrep則爲

原创 Flink數據流編程模型

一、抽象級別          Flink提供了不同級別的抽象,以開放流或批處理作業    1、 Stateful Stream Processing : 有狀態流             它是通過將過程函數(Processing Fun

原创 深入理解Flink的核心技術

Flink簡介           Flink的核心是一個流式的數據流執行引擎,其針對數據流的分佈計算提供了數據分佈,數據通信以及容錯機制等功能。基於流執行引擎,Flink提供了諸多更高抽象層的API以便用戶編寫分佈式任務: DataSe