原创 Azaban的基礎介紹

Azkaban的基礎介紹 一、爲什麼需要工作流調度器 1、一個完整的數據分析系統通常都是由大量任務單元組成: shell 腳本程序,java 程序,mapreduce 程序、hive 腳本等 2、各任務單元之間存在時間先後及前後依賴關

原创 Flume的Source類型

Flume的Source類型 一、概述 官方文檔介紹:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1 Avro Sour

原创 Kafka的高可用

Kafka的高可用 一、高可用的由來 1.1 爲何需要Replication   在Kafka在0.8以前的版本中,是沒有Replication的,一旦某一個Broker宕機,則其上所有的Partition數據都不可被消費,這與Kaf

原创 Flume的基礎介紹

Flume的基礎介紹 一、背景 Hadoop業務的整體開發流程:   從Hadoop的業務開發流程圖中可以看出,在大數據的業務處理過程中,對於數據的採集是十分重要的一步,也是不可避免的一步. 許多公司的平臺每天會產生大量的日誌(一般

原创 Kafka的架構

Kafka的架構 一、Kafka的架構 如上圖所示,一個典型的Kafka集羣中包含若干Producer(可以是web前端產生的Page View,或者是服務器日誌,系統CPU、Memory等),若干broker(Kafka支持水平擴

原创 Azkaban的使用

Azkaban的使用 界面介紹 首頁有四個菜單 projects:最重要的部分,創建一個工程,所有flows將在工程中運行。 scheduling:顯示定時任務 executing:顯示當前運行的任務 history:顯示歷史運行

原创 Azkaban的安裝

Azkaban的安裝 安裝過程 1、軟件介紹 Azkaban Web 服務器:azkaban-web-server-2.5.0.tar.gz Azkaban Excutor 執行服務器:azkaban-executor-server-

原创 Redis的介紹、安裝、數據類型、keys命令

Redis (一)redis的介紹 1) 什麼是redis c語言編寫的鍵值非關係型數據庫。主要用於高速訪問的內容緩存, redis也可以實現持久化,支持事務操作。 常用數據類型: string(字符類型),hash(散列類型),li

原创 Kafka的簡介

Kafka的簡介 一、簡介 1.1 概述 Kafka是最初由Linkedin公司開發,是一個分佈式、分區的、多副本的、多訂閱者,基於zookeeper協調的分佈式日誌系統(也可以當做MQ系統),常見可以用於web/nginx日誌、訪問

原创 ZooKeeper的開發環境eclipse配置

(一)eclipse中配置zookeeper開發環境 1)將zookeeper eclipse plugin中的6個jar包放到eclipse安裝目錄下的plugins文件中,重啓eclipse   (2) 在 Eclipse 菜單

原创 ZooKeeper的基本知識

ZooKeeper概述   ZooKeeper 是一個分佈式的,開放源碼的分佈式應用程序協調服務,是 Google 的 Chubby 一個開源的實現。它提供了簡單原始的功能,分佈式應用可以基於它實現更高級的服務,比 如分佈式同步,配置

原创 離線安裝Cloudera Manager 5和CDH5(最新版5.9.3) 完全教程(一)環境說明

系統環境 實驗環境:Windows server2008下VMware虛擬機 操作系統:CentOS 6.5 x64  Cloudera Manager:5.9.3 CDH: 5.9.3 安裝說明 由於處於數據安全保障,整個集羣處

原创 Sqoop 常用命令整理

1.使用sqoop導入數據sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST2.賬號密碼sqoop import --connec

原创 ZooKeeper 集羣 Java API 使用

具體代碼實現 /** *增刪改查 *@author Lv_Hulk */ import java.text.SimpleDateFormat; import java.util.Date; import java.util.List

原创 ZooKeeper的shell操作

Zookeeper的shell操作 Zookeeper命令工具 在啓動Zookeeper服務之後,輸入以下命令,連接到Zookeeper服務: [hadoop@hadoop1 ~]$ zkCli.sh -server hadoop2