原创 Spark 遇到OOM怎麼解決
Spark中的OOM問題不外乎以下兩種情況 map執行中內存溢出 shuffle後內存溢出 Spark 內存模型: Spark在一個Executor中的內存分爲三塊:
原创 Flink之window函數詳解
1、官網: https://ci.apache.org/projects/flink/flink-docs-release-1.7/concepts/programming-model.html#windows (建議大家多看
原创 MySQL存儲程序中觸發器和存儲過程的使用
--最近在項目中總是用到MySQL的觸發器和存儲過程,爲了加
原创 Spark SQL讀取HBase中數據的優化
在項目過程中中,我們會經常使用Spark SQL去查詢/分析HBase中的數據,內置的讀取數據源使用的是TableInputFormat ,這個TableInputFormat 有一些缺點: 一個Task裏面只能啓動一個Scan
原创 Python連接MySQL進行DML操作
1、安裝PyMySQL 本地:pip install pymysql Anaconda:conda install pymysql 2、插入數據 # coding=gbk import pymysql from pymysql.cu
原创 HBase的優化(參數)
配置優化zookeeper.session.timeout默認值:3分鐘(180000ms)說明:RegionServer與Zookeeper間的連接超時時間。當超時時間到後,ReigonServer會被Zookeeper從RS集羣清單中
原创 Shell常用操作
1、參數 shell語言,採用$0,$1,$2..等方式獲取腳本命令行傳入的參數,值得注意的是,$0獲取到的是腳本路徑以及腳本名,後面按順序獲取參數,當參數超過10個時(包括10個),需要使用${10},${11}....才能獲取到
原创 Vsql命令行命令詳解
基本格式: Vsql [連接選項] [常規選項] [輸入輸出選項] 1、常規選項: -d DBNAME指定要連接的數據庫名稱(默認值:“A”) -c COMMAND只運行單個命令(SQL或內部)並退出 -f FILE
原创 Kafka中的分區分配(面試點)
“請你簡述一下Kafka中的分區分配” 以前在面試中遇到了這個問題, 當時不太清楚balabala說了一大堆,現在總結下,希望對大家有用。 在Kafka中,分區分配是一個很重要的概念,卻往往會被讀者忽視,它會影響
原创 Oracle存儲過程的使用
最近在項目中需要寫存儲過程,於是在自己學習了一段時間,總結下,希望對大家學習有些幫助; 先上模板: create or replace procedure 要創建的存儲過程名稱(入參a in varchar2, 出參
原创 Flink版WordCount(Streaming and Batch)
Flink 程序開發步驟 1:獲得一個執行環境 2:加載/創建 初始化數據 3:指定操作數據的transaction算子 4:指定把計算好的數據放在哪 5:調用execute()觸發執行程序 注意:Flink程序是延遲計算的,只有最後調用
原创 Vertica常用SQL操作
一、查詢與修改 1、查詢 --導出表的結構: select export_objects('','app_z.test') --收集統計信息 select analyze_statistics('app_z.test') --重置
原创 linux 三大劍客 之grep
grep 1、簡介 grep 是一種強大的文本搜索工具,它能使用正則表達式搜索文本,並把匹配的行打印出來。通常grep有三種版本grep、egrep(等同於grep -E)和fgrep。egrep爲擴展的grep,fgrep則爲
原创 Flink數據流編程模型
一、抽象級別 Flink提供了不同級別的抽象,以開放流或批處理作業 1、 Stateful Stream Processing : 有狀態流 它是通過將過程函數(Processing Fun
原创 深入理解Flink的核心技術
Flink簡介 Flink的核心是一個流式的數據流執行引擎,其針對數據流的分佈計算提供了數據分佈,數據通信以及容錯機制等功能。基於流執行引擎,Flink提供了諸多更高抽象層的API以便用戶編寫分佈式任務: DataSe