原创 時間服務器的搭建

一.服務器系統設置 1.同步時間 1.1 手動同步集羣各機器時間 date -s "2017-03-03 03:03:03" yum install ntpdate 1.2 網絡同步時間 crontab 是 Unix 和 Lin

原创 Azkaban

Azkaban Azkaban介紹&安裝: ​ Azkaban是Linkedin公司推出的一個批量工作流任務調度器,用於在一個工作流內以一個特定的順序運行一組工作和流程; ​ Azkaban使用job配置文件建立任務之間的

原创 storm的ACK

1.Storm任務提交的過程 storm任務提交jar包時節點相互之間拷貝jar包都涉及到網絡傳輸,所以一般都要實現序列化接口serialiazble 執行過程 client ​ 提交jar包到nimbus節點

原创 Linux基礎

一.VMware 支持兩種類型的克隆: 完整克隆 鏈接克隆 完整克隆是和原始虛擬機完全獨立的一個拷貝,它不和原始虛擬機共享任何 資源。可以脫離原始虛擬機獨立使用。 鏈接克隆需要和原始虛擬機共享同一虛擬磁盤文件,不能脫離原始虛

原创 storm安裝與kafka整合

1.storm是什麼 1.1storm的介紹 storm是twitter公司開源貢獻給apache的一款實時流式處理的一個開源軟件,主要用於解決數據的實時計算以及實時的處理等方面的問題 1.2storm的特點 Storm是一

原创 flume

Apache Flume 1 . 概述 Flume 是 Cloudera 提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的軟件。 Flume 的核心是把數據從數據源(source)收集過來,再將收集到的數據送到指

原创 Hive搭建&基本操作

1.Hive 安裝部署 ​ Hive 安裝前需要安裝好 JDK 和 Hadoop。配置好環境變量。 ​ 根據元數據存儲的介質不同,分爲下面兩個版本,其中 derby 屬於內嵌模式。實際生產環境中則使用 mysql 來進行元數據的

原创 kafka

kafka 1.Kafka介紹 Apache Kafka是一個開源消息系統,由Scala寫成。是由Apache軟件基金會開發的一個開源消息系統項目。 Kafka最初是由LinkedIn開發,並於2011年初開源。2012年10月從Ap

原创 hbase面試題

一、HBase的特點是什麼 1.HBase一個分佈式的基於列式存儲的數據庫,基於hadoop的hdfs存儲,zookeeper進行管理。 2.HBase適合存儲半結構化或非結構化數據,對於數據結構字段不夠確定或者雜亂無章很難按一個概念

原创 hive優化

​ hive之於數據民工,就如同鋤頭之於農民伯伯。hive用的好,才能從地裏(數據庫)裏挖出更多的數據來。 用過hive的朋友,我想或多或少都有類似的經歷:一天下來,沒跑幾次hive,就到下班時間了。 hive在極大數據或者數據不平衡

原创 ZKFC(Zookeeper Failover Controller)原理【詳細版】

ZKFC設計文檔(ZK Failover Controller Design) 設計 組件化設計,ZK-based的automatic Failover主要由三個組件組成: HealthMonitor:用於監控NN是否unavailab

原创 爲 elasticsearch安裝插件 可視化插件

爲elasticsearch安裝插件 可視化插件 嚴重參考這個文檔,感謝! 1)安裝nodejs head是es的一個可視化插件 由於head運行在node.js上,我們需要安裝nodejs 注意:在root用戶下執行 yum ins

原创 hadoop 2.7.5集羣搭建

1、準備三臺機器,每天機器關閉防火牆,設置hosts文件,配置免密登錄 關閉防火牆 servie iptables stop chkconfig iptables off && setenforce 0 設置hosts 192.

原创 數據倉庫

數據倉庫 1 . 數據倉庫的基本概念 數據倉庫,英文名稱爲 Data Warehouse,可簡寫爲 DW 或 DWH。數據倉庫的目的是構建面向分析的集成化數據環境,爲企業提供決策支持(DecisionSupport)。它出於分析性報告和

原创 Linux Redis4.0.2安裝部署

Linux Redis 4.0.2 安裝部署 01 安裝GCC yum -y install gcc gcc-c++ libstdc++-devel tcl -y 02 下載安裝包 cd /export/software/ wget ht