台部落caiyefly

1.安裝zk集羣 2.config/server.properties 修改broker.id(唯一的)：broker.id=1 修改kafka綁定的網卡host.name=node-1.xiaoniu.com 修改kafka數據存放目

2020-06-23 16:04:38

常用命令 1，file 查看文件的類型 eg:file /etc/services 查看services文件的類型 2，man 幫助命令 eg：man ls man services （查看配置文件時，不需要配

2020-02-21 15:49:57

1，求分組TOPN常用語法 ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 語法解析：row_number() OVER (PARTITION BY COL1 ORDER

2020-02-21 15:49:57

模塊一：flume收集log文件一：flume的source不滿足我們的需求，所以自定義source。遇到的難點： 1，實時收集的數據，採集後出現亂碼問題。最後發現是因爲RandomAccessFile 讀寫文件時，不管文件中保存的數據

2020-02-21 15:49:57

一、序列化和反序列化的概念　　把對象轉換爲字節序列的過程稱爲對象的序列化。　　把字節序列恢復爲對象的過程稱爲對象的反序列化。　　對象的序列化

2020-02-21 15:49:57

點贊收藏分享文章舉報 caiyefly 發佈了22 篇原創文章 · 獲贊 3 · 訪問量 3萬+ 私信關注

2020-02-21 15:49:56

1，爲什麼要使用廣播變量？舉一個簡單的例子，我們要處理一份log文件，裏面有ip地址。 20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=

2020-02-21 15:49:56

Spark應用了一個分區器叫做（rangePartitioner）rangePartitioner在計算之前，會對數據進行採樣（水塘採樣）看看一共有多少條數據，數據範圍。rangePartitioner會根據下個階段有多少個分區將數據進行

2020-02-21 15:49:56

本人長期從事廣告平臺的建設，可以針對公司業務設計包括廣告大數據平臺底層搭建、廣告引擎的搭建、後端代碼部署、前端頁面部署。針對公司成本預算做多種解決方案，提供一站式解決方案，歡迎想搭建自己廣告平臺的大佬諮詢。加我qq：1594007516

2019-10-25 20:21:56

此篇文章的目的是幫助想從事大數據工作方向的沒有編程基礎的人員，或者有一定的java編程基礎的人員。爲什麼使用scala作爲大數據編程語言？ 1，首先scala是一門優雅的編程語言，何爲優雅形象的說就是api更加人性化，不需要像java一

2019-02-12 00:02:11

給系統定位問題，知識、經驗是關鍵基礎，數據時依據，工具是運用知識處理數據的手段。數據：運行日誌異常堆棧 GC日誌線程快照（threaddump/javacore文件）堆轉儲快照（heapdump/hprof文件）

2018-09-04 10:56:37

安裝Hadoop-2.8.0集羣問題整理原因：主機名與ip映射出現問題，導致其它節點找不到namenode。主機名不能帶有下劃線。問題描述：使用start-all.sh啓動後，使用jps查看沒有namenode進程。其它節點也沒

2018-09-04 10:56:37

問題描述：ERROR Error when sending message to topic helloworld with key: null, value: 3 bytes with error: (org.apache.kafka.

2018-09-04 10:56:36

1，如果使用的是公網Ip在配置好以後會報錯，應該使用內網IP。 2，http://blog.csdn.net/weiyongle1996/article/details/73733228

2018-09-04 10:56:36

堆大小設置 [plain] view plain copy java -Xmx3550m -Xms3550m -Xmn2g -Xss128k -Xmx3550m：設置JVM最大可用內存爲3550M。

2018-09-04 10:56:35