原创 大數據入門基礎:Hadoop簡介

  1.1.什麼是hadoop  1.hadoop是apache旗下的一套開源軟件平臺,可以通過http://apache.org/--->project-   ->hadoop打開  2.Hadoop是開源軟件,可靠的、分佈式、可伸縮的。

原创 大數據入門基礎:SSH介紹

什麼是ssh簡單說,SSH是一種網絡協議,用於計算機之間的加密登錄。如果一個用戶從本地計算機,使用SSH協議登錄另一臺遠程計算機,我們就可以認爲,這種登錄是安全的,即使被中途截獲,密碼也不會泄露。最早的時候,互聯網通信都是明文通信,一旦被截

原创 單獨啓動和關閉hadoop服務

1)啓動名稱節點  Hadoop-daemon.sh start namenode   2) 啓動數據節點hadoop-daemons.sh start datanode  slave 3)hadoop-daemon.sh start se

原创 數據處理流程

流程圖解析  典型的BI系統體流程如下:  由於是處理海量數據,流程中各環節所使用的技術則跟傳統BI完全不同,後續課程都會一一講解:  1) 數據採集:定製開發採集程序,或使用開源框架FLUME  2) 數據預處理:定製開發mapreduc

原创 hadoop3種集羣方式

 hadoop3種集羣方式包括獨立模式、僞分佈式模式和完全分佈式模式  1獨立模式安裝  a)下載jdk-8u65-linux-x64.tar.gz  b)tar開  $>su centos ; cd ~  $>mkdir download

原创 hadoop的端口簡介

hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 /

原创 通過hadoopAPI訪問文件

/** * 通過Hadoop api訪問 * @throws IOException */@Testpublic void readFileByAPI() throws IOException{Configuration conf = ne

原创 通過hadoop自帶的demo運行單詞統計

1)mkdir input2)cd  intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> fil

原创 Hadoop公開課:完全分佈式腳本分析

腳本分析start-all.sh  1)首先進入/soft/Hadoop/sbin目錄  2)nano start-all.sh  sbin/start-all.sh主要做的事情:  1) libexec/hadoop-config.sh 

原创 HADOOP生態圈以及各組成部分的簡介

 重點組件:HDFS:分佈式文件系統MAPREDUCE:分佈式運算程序開發框架Hive:基於大數據技術(文件系統+運算框架)的SQL數據倉庫工具Hbase:基於Hadoop的分佈式海量數據庫ZOOKEEPER:分佈式協調服務基礎組件Maho

原创 Hadoop公開課:完全分佈式腳本分析

腳本分析start-all.sh  1)首先進入/soft/Hadoop/sbin目錄  2)nano start-all.sh  sbin/start-all.sh主要做的事情:  1) libexec/hadoop-config.sh 

原创 hadoop的端口簡介

hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 /

原创 通過hadoop自帶的demo運行單詞統計

1)mkdir input2)cd  intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> fil

原创 通過hadoopAPI訪問文件

/** * 通過Hadoop api訪問 * @throws IOException */@Testpublic void readFileByAPI() throws IOException{Configuration conf = ne

原创 單獨啓動和關閉hadoop服務

1)啓動名稱節點  Hadoop-daemon.sh start namenode   2) 啓動數據節點hadoop-daemons.sh start datanode  slave 3)hadoop-daemon.sh start se