原创 爲什麼要寫博客

爲什麼要寫博客? 我認爲原因簡單的來講,就兩點,也可以說是兩種想法,兩種類型。 第一種是“小愛”,是對自己平時學習的一個總結,做做筆記。 俗話說好記性不如爛筆頭。我們工作生活中要學習要記憶的東西太多,很難所有的事情都能記在腦子裏,得找個地

原创 Flink數據寫入Elastic Search

需要注意的是,flink連接es時,端口號需要使用tcp端口(一般es默認http端口爲9200,tcp端口爲9300)。 代碼如下: //es配置 val config = new java.util.HashMap[

原创 Flink實時寫入MongoDB

通過flink的RichSinkFunction,實現連接MongoDB,實時寫入數據(也可以自定義一個類繼承RichSinkFunction) 此處需注意,由於RichSinkFunction是序列化對象,此時可以使用 @transie

原创 Flink連接Zookeeper消費Kafka數據

廢話不多說,直接上代碼片段,示例代碼(scala版本): val env = StreamExecutionEnvironment.getExecutionEnvironment // kafka 配置 val

原创 數據倉庫設計與實現入門(一、ODS/DW/BN簡介)

一、從數據流的邏輯上來講,數據主要分爲ODS層(原始日誌數據),DW層(數據倉庫),BN(統計結果數據) Spark/SparkStreaming任務加載原始日誌(離線處理flume落地到hadoop集羣的hdfs或實時消費kafka數

原创 Hive表更名問題——RENAME TABLE

RENAME TABLE ALTER TABLE table_name RENAME TO new_table_name 這個命令可以讓用戶爲表更名。數據所在的位置和分區名並不改變。換而言之,老的表名並未“釋放”,對老表的更改會改變新表的

原创 linux中grep命令的用法

轉自:https://www.cnblogs.com/flyor/p/6411140.html 作爲linux中最爲常用的三大文本(awk,sed,grep)處理工具之一,掌握好其用法是很有必要的。 首先談一下grep命令的常用格式爲:g

原创 python selenium網絡爬蟲 模擬登陸

from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium import webdriver driver =

原创 Spark離線計算優化——leftOuterJoin優化

兩個k-v格式的RDD進行leftOuterJoin操作如果數據量較大複雜度較高的話計算可能會消耗大量時間。可以通過兩種方式進行優化:1、leftOuterJoin操作前,兩個RDD自身進行reduceByKey操作(保證key唯一);2

原创 如何合理設置spark-submit參數

基礎的一些參數: --executor-cores 2(每臺機器核數) --num-executors 20  (executor 節點數,不要太多5-20,如果程序涉及數據交換較多,節點數過多會引起大量shuffle write,影響實

原创 Java toString()方法

每個非基本類的對象都有一個toString()方法,若編輯器本來希望的是一個String,但獲得的卻是某個這樣的對象,就會調用這個方法。如果我們創建一個允許這種行爲的類時,就需要寫一個toString()方法。 //類再生,合成的語法

原创 數據庫連接池中的maxIdle,MaxActive,maxWait參數

參考 原文鏈接1 原文鏈接2name:表示你的連接池的名稱也就是你要訪問連接池的地址auth:是連接池管理權屬性,Container表示容器管理type:是對象的類型driverClassName:是數據庫驅動的名稱url:是數據庫的地址

原创 ubuntu下配置php+apache+mysql

安裝php7.0: sudo apt-get install php7.0 安裝apache2: sudo apt-get install apache2 安裝MySQL: sudo mysql-server 還要安裝配置Apache與M

原创 Java 匿名類示例

//匿名類 interface Contents{ int value(); } public class Parcel4 { public Contents cont(){ return new Contents(){

原创 Spark離線計算優化——增量小數據集更新全量大數據集

有兩個k-v格式的RDD需要union之後再進行reduceByKey操作(如:要將每日增量幾十萬的數據更新到全量幾億的數據)優化方案:先將兩個RDD公共部分提取出來,然後將公共部分先union再進行reduceByKey,最後將結果和前