原创 初始spark

spark 是個大規模的計算引擎 spark-core RDD基本概念 彈性分佈式數據集(RDD),spark中的基本抽象,表示可以並行操作的不可變的分區元素集合。 5個主要屬性 1.分區列表(a list p

原创 hadoop集羣測試jar包以及歷史命令

使用idea打jar包 1.在pom文件的下邊將 打包插件 2.然後impor 下載打jar包依賴 3.在以來中指定主類,包名,類名mrTest.dirver 4.點開idea右邊的maven project , 然後打開Lif

原创 安裝配置高可用Hadoop

首先下載好Hadoop的安裝包,並解壓 1.配置hadoop-env.sh中的java_home 修改爲自己jdk的路徑 修改hadoop-env.sh中的java_home export JAVA_HOME=/opt/jdk1.

原创 MapReduce詞頻統計說明

wc詞頻統計代碼: 由三個階段組成: 1)Mapper階段 (1)用戶自定義的Mapper要繼承自己的父類 Mapper (2)Mapper的輸入數據是KV對的形式(KV的類型可自定義) (3)Mapper中的業務邏輯寫在map(

原创 flume,taildir Source

taildir 特點 官方文檔 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#multiport-syslog-tcp-source 觀察指定

原创 Hadoop僞分佈式安裝

1.上傳Hadoop壓縮包,解壓到/opt下 解壓完成爲: 2.進入./hadoop-2.7.2/etc/hadoop/ 編輯 hadoop-env.sh core-site.xml hdfs-site.xml

原创 Linux常用命令

Linux常用命令 1.目錄結構2. 常用的命令 1.目錄結構 / 最頂級目錄,所有的東西都在/目錄下 bin 可執行文件,可以被root和一般用戶使用的指令,也就是常用命令 dev 外接設備 etc 配置文件 home 普通用戶

原创 在Linux中安裝jdk

在Java官方下載jdk 通過rz 上傳下載好的壓縮包 通過yum install -y lrzsz 命令下載 命令 3.通過rz 上傳jdk壓縮包 4.配置環境變量 vi /etc/profile export JAVA

原创 Linux中安裝MySQL

在Linux中安裝MySQL 1.編輯版本下載地址 vim /etc/yum.repos.d/mysql-community.repo [mysql-connectors-community] name=MySQL Connect

原创 初識flume

flume是什麼 flume 作爲 cloudera 開發的實時日誌收集系統,受到了業界的認可與廣泛應用。Flume 初始的發行版本目前被統稱爲 Flume OG(original generation),屬於 cloudera。