台部落Hoult丶吳邪

使用Nginx做頁面採集, Kafka收集到對應Topic_6XwWe5qWHGM2PojVPUSejM 使用Nginx做頁面採集, Kafka收集到對應Topic 0.架構簡介模擬線上的實時流，比如用戶的操作日誌，採集到數據後，進行處理

2023-09-04 13:27:08

大數據開發-從Scala到Akka併發編程大數據開發-從Scala到Akka併發編程 [4-1 Scala作業.pdf](file/4-1 Scala作業_UVqqJLwoIp.pdf) 1.遞歸實現瓶蓋，瓶子換酒瓶的算法 1.1 需求描

2023-09-04 13:27:08

大數據實戰-Hive-技巧實戰_2LgaeiFwLs7mCTwG5T3c9M 大數據實戰-Hive-技巧實戰 1.union 和 union all 前者可以去重select sex,address from test where dt

2023-09-04 13:27:08

真正在工作中用Go的時間不久，所以也作爲新手，總結了一些常見的問題和坑 Go 中指針使用注意點 // 1.空指針反向引用不合法 package main func main() { var p *int = nil *p =

2021-08-09 12:56:43

new()和make的區別二者看起來沒什麼區別，但是他們的行爲不同，分別適用於不同的類型 new (T) 爲每個新的類型 T 分配一片內存，初始化爲 0 並且返回類型爲 * T 的內存地址：這種方法返回一個指向類型爲 T，值爲 0

2021-08-08 12:56:43

Flink窗口背景 Flink認爲Batch是Streaming的一個特例，因此Flink底層引擎是一個流式引擎，在上面實現了流處理和批處理。而Window就是從Streaming到Batch的橋樑。通俗講，Window是用來對一個無限的流

2021-05-31 12:56:48

介紹大概4月，Flink1.13就發佈了，參加了Flink1.13 的Meetup，收穫還是挺多，從大的方面講就是FlingSql的改進和優化，資源調度管理方面的優化，以及流批一體Flink在運行時與DataStream API的優化，

2021-05-23 12:56:50

Flink主要用來處理數據流，所以從抽象上來看就是對數據流的處理，正如前面大數據開發-Flink-體系結構 && 運行架構提到寫Flink程序實際上就是在寫DataSource、Transformation、Sink. DataSour

2021-05-12 12:56:51

1.爲什麼是json4s 從json4s的官方描述 At this moment there are at least 6 json libraries for scala, not counting the java json libr

2021-03-22 18:35:36

1.user ss is currently user by process 3234 問題原因：root --> ss --> root 棧遞歸一樣解決方式：exit 退出當前到ss再退出到root 然後執行命令即可。 2.列出某目錄下

2021-03-22 18:35:25

大數據開發--Hbase協處理器案例 1. 需求描述在社交網站，社交APP上會存儲有大量的用戶數據以及用戶之間的關係數據，比如A用戶的好友列表會展示出他所有的好友，現有一張Hbase表，存儲就是當前註冊用戶的好友關係數據，如下需求

2021-03-22 18:35:10

在日常開發過程中，除了例行調度的任務和直接在開發環境下比如Scripts，開發，很多情況下是shell下直接搞起（小公司一般是這樣），看一下常見的linux後臺運行和關閉的命令，這裏做一個總結，主要包括：fg、bg、jobs、&、nohup

2021-03-22 18:35:08

前面一篇文章提到大數據開發-Spark Join原理詳解,本文從源碼角度來看cogroup 的join實現 1.分析下面的代碼 import org.apache.spark.rdd.RDD import org.apache.spark.

2021-03-22 18:35:06

1.Spark Graph簡介 GraphX 是 Spark 一個組件，專門用來表示圖以及進行圖的並行計算。GraphX 通過重新定義了圖的抽象概念來拓展了 RDD：定向多圖，其屬性附加到每個頂點和邊。爲了支持圖計算， GraphX 公開

2021-03-22 18:34:56

1.Spark Streaming簡介 Spark Streaming從各種輸入源中讀取數據，並把數據分組爲小的批次。新的批次按均勻的時間間隔創建出來。在每個時間區間開始的時候，一個新的批次就創建出來，在該區間內收到的數據都會被添加到這個批

2021-03-22 18:34:53