原创 Linux四劍客之grep
grep 一、基礎操作 0)過濾查找,匹配文件裏面的某個字符、內容 1)查找文件裏面的某個內容 grep "root" /
原创 大數據開發之flume安裝
下載需要的版本並且上傳到centos 這裏我下載的是flume1.7.0,地址:http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz
原创 大數據開發之spark基礎
spark 一、產生背景 迭代式計算 交互式數據挖掘 二、安裝部署 1、下載安裝包 2、上傳到linux
原创 大數據開發之MapReduce常用的調優參數
一、資源相關參數 1)以下參數是在用戶自己的mr應用程序中配置就可以生效(mapred-default.xml) 配置參數 參數說明 mapreduce.map.memory.mb 一個Map Task可使用的資源上限(單
原创 大數據開發之kafka基礎知識點
kafka 一、理性認知 在流式計算中,kafka一般用來緩存數據,Storm通過消費kafka的數據進行計算 1、Apache kafka是一個開源消息系統,由Scala寫成。是由Apache軟件基金會
原创 大數據開發之zookeeper集羣搭建
一、下載zookeeper 直接搜需要的版本進行下載,這裏我下載的是3.4.10版本的 二、將壓縮包上傳到centos之上 三、解壓 [root@hlh003 software]# tar -zxvf zookeeper-
原创 大數據開發之storm基礎知識點
storm 一、概述 離線計算 批量獲取數據、批量傳輸數據、週期性批量計算數據、數據展示 代表技術
原创 大數據開發之hadoop HA配置
hadoop HA 一、原理 HA高可用 存儲 當editlog發生變化時,則直接寫入JournalNode,以用來分享給其他的NameNode 二、安裝部署 step1、配置z
原创 大數據之安裝hive
一、按照自己的需要去下載相應 的版本並傳到centos中 https://archive.apache.org/dist/hive/hive-1.2.1/ 二、解壓並改名 [root@hlh003 software]# tar -z
原创 大數據開發之kafka安裝
安裝kafka前需要安裝zookeeper,參考https://blog.csdn.net/weixin_44772799/article/details/99545064 一、按需求下載kafka並傳到centos 二、解壓安
原创 大數據開發之zookeeper知識點總結
ZOOKEEPER 一、概述 是一個開源的分佈式的,爲分佈式應用提供協調服務的Apache項目 基於觀察者模式設計的分佈式服務管理框架,它負責存儲和管理大家都關心的數據,然
原创 完整elasticsearch安裝及其插件安裝
一、elasticsearch安裝 1、官網下載安裝包並上傳並解壓 2、es下建立data和logs目錄 3、編輯conf/elasticsearch.yml文件 cluster:cluster.name:hlh-app
原创 大數據開發之kafka配置信息
目錄 一、Broker配置信息 二、Producer配置信息 三、Consumer配置信息 一、Broker配置信息 屬性 默認值 描述 broker.id 必填參數,broker的唯一標識 log.dir
原创 大數據開發之JVM基礎知識點
JVM 認知 熟悉jvm架構以及垃圾回收機制以及相應的參數調優,有過在linux進行系統優化的經驗 線程和操作系統有關 過程 1)class文件通過類加載器加進內存區域---cla
原创 大數據開發之hive知識點總結
hive 一、認知 數據庫與數據倉庫 數據庫 mysql,oracle,sqlserver,DB2,sqlite,MDB