原创 anxiao的HBase和Mapreduce

14、HBase與MapReduce的集成 HBase當中的數據最終都是存儲在HDFS上面的,HBase天生的支持MR的操作,我們可以通過MR直接處理HBase當中的數據,並且MR可以將處理後的結果直接存儲到HBase當中去 需求

原创 3、千億級數倉項目(一)在mysql建表通過kettle把數據導入到hive表中

10張表導入的ktr文件–》可以參考一下 鏈接:https://pan.baidu.com/s/1Ho9xrXItA5vSaMpH40NhKA 提取碼:evzq 複製這段內容後打開百度網盤手機App,操作更方便哦 導出par

原创 10.Hadoop使用SNN的FSimage和Edits還原Namenode

1.關閉集羣 切換目錄 [root@node01 ~]# cd /export/servers/hadoop-2.6.0-cdh5.14.0 關閉集羣 [root@node01 hadoop-2.6.0-cdh5.14.0]# s

原创 02.Hive的特點和基本操作

Hive的訪問方式 1、在Hive客戶端,配置hive到環境變量的前提下,在節點的任意位置 直接數據hive + 回車 2、啓動hiveserver2 服務 在節點上寫入下面命令開啓服務 hive --service hivese

原创 03.大數據集羣安裝部署(一) linux環境安裝 小白必看

準備一臺服務器進行下面操作之後再克隆 注意:ip和主機名之後再設置更這個配置裏面一樣就行了 第一步:準備一臺服務器克隆 第二步:遠程連接打開selinux文件 vim /etc/selinux/config 第三步:關閉防火牆,

原创 01.Hive安裝和環境準備

Hive基本概念 是一個基於Hadoop的數據倉庫工具,可以將結構化數據映射成一張數據表, 並提供類SQL的查詢功能 安裝Hive 1、derby版hive直接使用: 1、上傳Hive包到/export/softwares 解

原创 03、Apache Flume簡單案例

案例一:接收telent數據 使用網絡telent命令向一臺機器發送一些網絡數據,然後通過flume採集網絡端口數據 第一步:開發配置文件 根據數據採集的需求配置採集方案,描述在配置文件中(文件名可任意自定義) 配置我們的網絡收集

原创 12.Liunx的yum局域網絡實現 超詳細

網絡yum源實現方式(注意至少開啓兩個服務器) 角色1 yum的服務器 角色2 普通服務器 **前提:**關閉防火牆 同時設置開機不自動開啓(主節點上本地網絡配置完成) (在主節點上進行下面操作) 1.檢查yum的服務器的http

原创 11.linux 虛擬機三臺集羣搭建CentOS 超詳細

1.在虛擬機中創建三個虛擬機主機,三個虛擬主機配置ip,兩兩之間可以ping通 這三個虛擬機都要修改兩個文件 第一個文件 更改新增系統的mac地址 :vim /etc/udev/rules.d/70-persistent-net.

原创 anxiao的學習HDFS的API

package com.czxy.demo02; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStrea

原创 07.Hadoop之HDFS的Shell命令操作(三)

(1)-help:輸出這個命令參數 bin/hdfs dfs -help rm (2)-ls: 顯示目錄信息 hdfs dfs -ls / (3)-mkdir:在hdfs上創建目錄 hdfs dfs -mkdir -p /a

原创 4、千億級數倉項目(二)拉鍊表--增量數據

提示: 由於整個項目實現拉鍊表耗時太長所以只實現了一個拉鍊表,學會怎樣使用就行 5、數倉項目 - 商品維度數據裝載 使用拉鍊表解決商品SCD問題 拉鍊表的好處:既能保證數據沒有冗餘,也能保證有歷史數據 拉鍊表的流程圖 全量導入:

原创 3、數倉項目--拉鍊表

週末在更新

原创 1、Kylin安裝和環境配置

提醒:爲了節省時間安裝kylin的配置文件就不寫第二遍了,直接把寫好的筆記分享出來 01、安裝Hbase1.1.1版本(一) https://app.yinxiang.com/fx/b6fbc5ff-4eac-4d86-aa6a-

原创 2、用Kettle生成日期維度數據(一)使用kettle生成2019年日期文件保存到hive表中

記錄5月4號導入數據的過程,以便以後更方便使用這個方法 1、需求: 爲了後續分析銷售訂單金額、訂單筆數的周環比、周同比、月環比、月同比,需要提前使用Kettle生成時間維度 工具(環比是相鄰比較,同比是歷史同期比較) 按照以下字段