原创 大數據入門基礎:Hadoop簡介
1.1.什麼是hadoop 1.hadoop是apache旗下的一套開源軟件平臺,可以通過http://apache.org/--->project- ->hadoop打開 2.Hadoop是開源軟件,可靠的、分佈式、可伸縮的。
原创 大數據入門基礎:SSH介紹
什麼是ssh簡單說,SSH是一種網絡協議,用於計算機之間的加密登錄。如果一個用戶從本地計算機,使用SSH協議登錄另一臺遠程計算機,我們就可以認爲,這種登錄是安全的,即使被中途截獲,密碼也不會泄露。最早的時候,互聯網通信都是明文通信,一旦被截
原创 單獨啓動和關閉hadoop服務
1)啓動名稱節點 Hadoop-daemon.sh start namenode 2) 啓動數據節點hadoop-daemons.sh start datanode slave 3)hadoop-daemon.sh start se
原创 數據處理流程
流程圖解析 典型的BI系統體流程如下: 由於是處理海量數據,流程中各環節所使用的技術則跟傳統BI完全不同,後續課程都會一一講解: 1) 數據採集:定製開發採集程序,或使用開源框架FLUME 2) 數據預處理:定製開發mapreduc
原创 hadoop3種集羣方式
hadoop3種集羣方式包括獨立模式、僞分佈式模式和完全分佈式模式 1獨立模式安裝 a)下載jdk-8u65-linux-x64.tar.gz b)tar開 $>su centos ; cd ~ $>mkdir download
原创 hadoop的端口簡介
hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 /
原创 通過hadoopAPI訪問文件
/** * 通過Hadoop api訪問 * @throws IOException */@Testpublic void readFileByAPI() throws IOException{Configuration conf = ne
原创 通過hadoop自帶的demo運行單詞統計
1)mkdir input2)cd intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> fil
原创 Hadoop公開課:完全分佈式腳本分析
腳本分析start-all.sh 1)首先進入/soft/Hadoop/sbin目錄 2)nano start-all.sh sbin/start-all.sh主要做的事情: 1) libexec/hadoop-config.sh
原创 HADOOP生態圈以及各組成部分的簡介
重點組件:HDFS:分佈式文件系統MAPREDUCE:分佈式運算程序開發框架Hive:基於大數據技術(文件系統+運算框架)的SQL數據倉庫工具Hbase:基於Hadoop的分佈式海量數據庫ZOOKEEPER:分佈式協調服務基礎組件Maho
原创 Hadoop公開課:完全分佈式腳本分析
腳本分析start-all.sh 1)首先進入/soft/Hadoop/sbin目錄 2)nano start-all.sh sbin/start-all.sh主要做的事情: 1) libexec/hadoop-config.sh
原创 hadoop的端口簡介
hadoop的端口:50070 //namenode http port50075 //datanode http port50090 //2namenode http port8020 //namenode rpc port50010 /
原创 通過hadoop自帶的demo運行單詞統計
1)mkdir input2)cd intput3)echo “hello word” > file1.txt4)echo “hello Hadoop” > file2.txt5)echo “hello mapreduce” >> fil
原创 通過hadoopAPI訪問文件
/** * 通過Hadoop api訪問 * @throws IOException */@Testpublic void readFileByAPI() throws IOException{Configuration conf = ne
原创 單獨啓動和關閉hadoop服務
1)啓動名稱節點 Hadoop-daemon.sh start namenode 2) 啓動數據節點hadoop-daemons.sh start datanode slave 3)hadoop-daemon.sh start se