原创 kafka在集羣安裝步驟及相關命令

1.安裝zk集羣 2.config/server.properties 修改broker.id(唯一的):broker.id=1 修改kafka綁定的網卡host.name=node-1.xiaoniu.com 修改kafka數據存放目

原创 Linux常用命令整理

常用命令 1,file  查看文件的類型  eg:file /etc/services  查看services文件的類型 2,man 幫助命令 eg:man ls    man services   (查看配置文件時,不需要配

原创 SparkSQL語句歸納總結

1,求分組TOPN常用語法 ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 語法解析:row_number() OVER (PARTITION BY COL1 ORDER

原创 難點彙總

模塊一:flume收集log文件 一:flume的source不滿足我們的需求,所以自定義source。遇到的難點: 1,實時收集的數據,採集後出現亂碼問題。最後發現是因爲RandomAccessFile 讀寫文件時,不管文件中保存的數據

原创 序列化與反序列化

一、序列化和反序列化的概念   把對象轉換爲字節序列的過程稱爲對象的序列化。   把字節序列恢復爲對象的過程稱爲對象的反序列化。   對象的序列化

原创 Spark程序執行過程中遇到的線程安全問題及解決辦法

點贊 收藏 分享 文章舉報 caiyefly 發佈了22 篇原創文章 · 獲贊 3 · 訪問量 3萬+ 私信 關注

原创 Spark中廣播變量知識點

1,爲什麼要使用廣播變量? 舉一個簡單的例子,我們要處理一份log文件,裏面有ip地址。 20090121000132095572000|125.213.100.123|show.51.com|/shoplist.php?phpfile=

原创 Spark如何做到全局有序

Spark應用了一個分區器叫做(rangePartitioner)rangePartitioner在計算之前,會對數據進行採樣(水塘採樣)看看一共有多少條數據,數據範圍。rangePartitioner會根據下個階段有多少個分區將數據進行

原创 ADX,DSP,SSP廣告系統搭建

本人長期從事廣告平臺的建設,可以針對公司業務設計包括廣告大數據平臺底層搭建、廣告引擎的搭建、後端代碼部署、前端頁面部署。針對公司成本預算做多種解決方案,提供一站式解決方案,歡迎想搭建自己廣告平臺的大佬諮詢。 加我qq:1594007516

原创 大數據學習,Scala編程語言,scala視頻學習

此篇文章的目的是幫助想從事大數據工作方向的沒有編程基礎的人員,或者有一定的java編程基礎的人員。 爲什麼使用scala作爲大數據編程語言? 1,首先scala是一門優雅的編程語言,何爲優雅形象的說就是api更加人性化,不需要像java一

原创 虛擬機性能監控和故障處理工具

給系統定位問題,知識、經驗是關鍵基礎,數據時依據,工具是運用知識處理數據的手段。 數據:運行日誌    異常堆棧  GC日誌  線程快照(threaddump/javacore文件)  堆轉儲快照(heapdump/hprof文件)

原创 hadoop集羣遇到的奇怪問題

安裝Hadoop-2.8.0集羣問題整理 原因:主機名與ip映射出現問題,導致其它節點找不到namenode。主機名不能帶有下劃線。   問題描述:使用start-all.sh啓動後,使用jps查看沒有namenode進程。其它節點也沒

原创 kafka連接問題

問題描述:ERROR Error when sending message to topic helloworld with key: null, value: 3 bytes with error: (org.apache.kafka.

原创 搭建zookeeper集羣遇到的問題整理

1,如果使用的是公網Ip在配置好以後會報錯,應該使用內網IP。 2,http://blog.csdn.net/weiyongle1996/article/details/73733228

原创 JVM調優總結

堆大小設置 [plain] view plain copy java   -Xmx3550m   -Xms3550m   -Xmn2g   -Xss128k   -Xmx3550m:設置JVM最大可用內存爲3550M。