原创 使用Nginx做頁面採集, Kafka收集到對應Topic_6XwWe5qWHGM2PojVPUSejM

使用Nginx做頁面採集, Kafka收集到對應Topic_6XwWe5qWHGM2PojVPUSejM 使用Nginx做頁面採集, Kafka收集到對應Topic 0.架構簡介 模擬線上的實時流,比如用戶的操作日誌,採集到數據後,進行處理

原创 大數據開發-從Scala到Akka併發編程_jDW32G3c87fjEBtYNE7Z7f

大數據開發-從Scala到Akka併發編程 大數據開發-從Scala到Akka併發編程 [4-1 Scala作業.pdf](file/4-1 Scala作業_UVqqJLwoIp.pdf) 1.遞歸實現瓶蓋,瓶子換酒瓶的算法 1.1 需求描

原创 大數據實戰-Hive-技巧實戰_2LgaeiFwLs7mCTwG5T3c9M

大數據實戰-Hive-技巧實戰_2LgaeiFwLs7mCTwG5T3c9M 大數據實戰-Hive-技巧實戰 1.union 和 union all 前者可以去重select sex,address from test where dt

原创 大數據開發-Go-新手常遇問題

真正在工作中用Go的時間不久,所以也作爲新手,總結了一些常見的問題和坑 Go 中指針使用注意點 // 1.空指針反向引用不合法 package main func main() { var p *int = nil *p =

原创 大數據開發-Go-數組,切片

new()和make的區別 二者看起來沒什麼區別,但是他們的行爲不同,分別適用於不同的類型 new (T) 爲每個新的類型 T 分配一片內存,初始化爲 0 並且返回類型爲 * T 的內存地址:這種方法 返回一個指向類型爲 T,值爲 0

原创 大數據開發-Flink-窗口全解析

Flink窗口背景 Flink認爲Batch是Streaming的一個特例,因此Flink底層引擎是一個流式引擎,在上面實現了流處理和批處理。而Window就是從Streaming到Batch的橋樑。通俗講,Window是用來對一個無限的流

原创 大數據開發-Flink-1.13新特性

介紹 大概4月,Flink1.13就發佈了,參加 了Flink1.13 的Meetup,收穫還是挺多,從大的方面講就是FlingSql的改進和優化,資源調度管理方面的優化,以及流批一體Flink在運行時與DataStream API的優化,

原创 大數據開發-Flink-數據流DataStream和DataSet

Flink主要用來處理數據流,所以從抽象上來看就是對數據流的處理,正如前面大數據開發-Flink-體系結構 && 運行架構提到寫Flink程序實際上就是在寫DataSource、Transformation、Sink. DataSour

原创 開發工具-scala處理json格式利器-json4s

1.爲什麼是json4s 從json4s的官方描述 At this moment there are at least 6 json libraries for scala, not counting the java json libr

原创 大數據開發-linux下常見問題詳解

1.user ss is currently user by process 3234 問題原因:root --> ss --> root 棧遞歸一樣 解決方式:exit 退出當前到ss再退出到root 然後執行命令即可。 2.列出某目錄下

原创 大數據開發--Hbase協處理器案例

大數據開發--Hbase協處理器案例 1. 需求描述 在社交網站,社交APP上會存儲有大量的用戶數據以及用戶之間的關係數據,比如A用戶的好友列表會展示出他所有的好友,現有一張Hbase表,存儲就是當前註冊用戶的好友關係數據,如下 需求

原创 大數據開發-linux後臺運行,關閉,查看後臺任務

在日常開發過程中,除了例行調度的任務和直接在開發環境下比如Scripts,開發,很多情況下是shell下直接搞起(小公司一般是這樣),看一下常見的linux後臺運行和關閉的命令,這裏做一個總結,主要包括:fg、bg、jobs、&、nohup

原创 大數據開發-從cogroup的實現來看join是寬依賴還是窄依賴

前面一篇文章提到大數據開發-Spark Join原理詳解,本文從源碼角度來看cogroup 的join實現 1.分析下面的代碼 import org.apache.spark.rdd.RDD import org.apache.spark.

原创 大數據開發-Spark-初識Spark-Graph && 快速入門

1.Spark Graph簡介 GraphX 是 Spark 一個組件,專門用來表示圖以及進行圖的並行計算。GraphX 通過重新定義了圖的抽象概念來拓展了 RDD: 定向多圖,其屬性附加到每個頂點和邊。爲了支持圖計算, GraphX 公開

原创 大數據開發-Spark-開發Streaming處理數據 && 寫入Kafka

1.Spark Streaming簡介 Spark Streaming從各種輸入源中讀取數據,並把數據分組爲小的批次。新的批次按均勻的時間間隔創建出來。在每個時間區間開始的時候,一個新的批次就創建出來,在該區間內收到的數據都會被添加到這個批