台部落大数据小同学

常見正則表達式語法元字符描述 ^ 匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性，^也匹配“\n”或“\r”之後的位置。 $ 匹配輸入字符串的結束位置。如果設置了RegExp對象

2020-06-16 15:31:14

你是如何實現Flume數據傳輸的監控的使用第三方框架Ganglia實時監控Flume。 Flume的Source，Sink，Channel的作用？你們Source是什麼類型？作用 Source組件是專門用來收集數據的，可以處

2020-06-16 15:31:13

安裝部署集羣規劃 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka jar包下載 http://kafka.apache.org/downlo

2020-06-16 15:31:13

自定義Source介紹 Source是負責接收數據到Flume Agent的組件。Source組件可以處理各種類型、各種格式的日誌數據，包括avro、thrift、exec、jms、spooling directory、netca

2020-06-16 15:31:13

Flume定義 Flume是Cloudera提供的一個高可用的，高可靠的，分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構，靈活簡單 Flume的優點可以和任意存儲進程集成。輸入的的數據速率大於寫入目的存儲的

2020-06-16 15:31:13

自定義Sink介紹 Sink不斷地輪詢Channel中的事件且批量地移除它們，並將這些事件批量寫入到存儲或索引系統、或者被髮送到另一個Flume Agent。 Sink是完全事務性的。在從Channel批量刪除數據之前，每個Sin

2020-06-16 15:31:13

Kafka定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列，主要應用於大數據實時處理領域。傳統消息隊列的應用場景消息隊列的兩種模式點對點模式（一對一，消費者主動拉取數據，消息收到後消息清除）消息生產者生產消

2020-06-16 15:31:13

Ganglia的安裝與部署安裝httpd服務與php [liujh@hadoop102 flume]$ sudo yum -y install httpd php 安裝其他依賴 [liujh@hadoop102 flume]$

2020-06-16 15:31:13

修改Hadoop集羣具有Snappy壓縮方式查看hadoop checknative命令使用 [liujh@hadoop104 hadoop-2.7.2]$ hadoop checknative [-a|-h] check

2020-06-07 19:44:08

合理設置Map及Reduce數通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有：input的文件總個數，input的文件大小，集羣設置的文件塊大小。是不是map數越多越好？答案是否定的。

2020-06-07 19:44:08

小表、大表Join 將key相對分散，並且數據量小的表放在join的左邊，這樣可以有效減少內存溢出錯誤發生的機率；再進一步，可以使用map join讓小的維度表（1000條以下的記錄條數）先進內存。在map端完成reduce。實

2020-06-07 19:44:08

文件存儲格式 Hive支持的存儲數據的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。列式存儲和行式存儲左邊爲邏輯表，右邊第一個爲行式存儲，第二個爲列式存儲行存儲的特點查詢滿足條件的一

2020-06-07 19:44:08

Fetch抓取 Fetch抓取是指，Hive中對某些情況的查詢可以不必使用MapReduce計算。例如：SELECT * FROM employees;在這種情況下，Hive可以簡單地讀取employee對應的存儲目錄下的文件，然

2020-06-07 19:44:08

分桶表數據存儲分區提供一個隔離數據和優化查詢的便利方式。不過，並非所有的數據集都可形成合理的分區。對於一張表或者分區，Hive 可以進一步組織成桶，也就是更爲細粒度的數據範圍劃分。分桶是將數據集分解成更容易管理的若干部分的另一

2020-06-07 19:44:08

Hadoop源碼編譯支持Snappy壓縮資源準備 CentOS聯網配置CentOS能連接外網。Linux虛擬機ping www.baidu.com 是暢通的注意：採用root角色編譯，減少文件夾權限出現問題 jar包準備(

2020-06-07 19:44:08