原创 Flume知識擴展之自定義MySQLSource

常見正則表達式語法 元字符 描述 ^ 匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之後的位置。 $ 匹配輸入字符串的結束位置。如果設置了RegExp對象

原创 Flume面試題

你是如何實現Flume數據傳輸的監控的 使用第三方框架Ganglia實時監控Flume。 Flume的Source,Sink,Channel的作用?你們Source是什麼類型? 作用 Source組件是專門用來收集數據的,可以處

原创 Kafka快速詳細入門

安裝部署 集羣規劃 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka jar包下載 http://kafka.apache.org/downlo

原创 Flume自定義Source詳細操作

自定義Source介紹 Source是負責接收數據到Flume Agent的組件。Source組件可以處理各種類型、各種格式的日誌數據,包括avro、thrift、exec、jms、spooling directory、netca

原创 Flume概述及快速入門

Flume定義 Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構,靈活簡單 Flume的優點 可以和任意存儲進程集成。 輸入的的數據速率大於寫入目的存儲的

原创 Flume自定義Sink詳細操作

自定義Sink介紹 Sink不斷地輪詢Channel中的事件且批量地移除它們,並將這些事件批量寫入到存儲或索引系統、或者被髮送到另一個Flume Agent。 Sink是完全事務性的。在從Channel批量刪除數據之前,每個Sin

原创 Kafka詳細概述

Kafka定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列,主要應用於大數據實時處理領域。 傳統消息隊列的應用場景 消息隊列的兩種模式 點對點模式(一對一,消費者主動拉取數據,消息收到後消息清除) 消息生產者生產消

原创 Flume監控之Ganglia詳細安裝

Ganglia的安裝與部署 安裝httpd服務與php [liujh@hadoop102 flume]$ sudo yum -y install httpd php 安裝其他依賴 [liujh@hadoop102 flume]$

原创 Hive存儲和壓縮結合詳解

修改Hadoop集羣具有Snappy壓縮方式 查看hadoop checknative命令使用 [liujh@hadoop104 hadoop-2.7.2]$ hadoop checknative [-a|-h] check

原创 Hive企業級調合理設置Map及Reduce數

合理設置Map及Reduce數 通常情況下,作業會通過input的目錄產生一個或者多個map任務。 主要的決定因素有:input的文件總個數,input的文件大小,集羣設置的文件塊大小。 是不是map數越多越好? 答案是否定的。

原创 Hive企業級調優表的優化

小表、大表Join 將key相對分散,並且數據量小的表放在join的左邊,這樣可以有效減少內存溢出錯誤發生的機率;再進一步,可以使用map join讓小的維度表(1000條以下的記錄條數)先進內存。在map端完成reduce。 實

原创 Hive超詳細存儲

文件存儲格式 Hive支持的存儲數據的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。 列式存儲和行式存儲 左邊爲邏輯表,右邊第一個爲行式存儲,第二個爲列式存儲 行存儲的特點 查詢滿足條件的一

原创 Hive其它企業級調優

Fetch抓取 Fetch抓取是指,Hive中對某些情況的查詢可以不必使用MapReduce計算。例如:SELECT * FROM employees;在這種情況下,Hive可以簡單地讀取employee對應的存儲目錄下的文件,然

原创 Hive分桶及抽樣查詢詳解

分桶表數據存儲 分區提供一個隔離數據和優化查詢的便利方式。不過,並非所有的數據集都可形成合理的分區。對於一張表或者分區,Hive 可以進一步組織成桶,也就是更爲細粒度的數據範圍劃分。 分桶是將數據集分解成更容易管理的若干部分的另一

原创 Hive壓縮詳解

Hadoop源碼編譯支持Snappy壓縮 資源準備 CentOS聯網 配置CentOS能連接外網。Linux虛擬機ping www.baidu.com 是暢通的 注意:採用root角色編譯,減少文件夾權限出現問題 jar包準備(