原创 Hadoop集羣相關腳本

1、第一步 以Root賬戶爲例: cd /usr/local/bin 創建各個腳本名稱如:羣起腳本 touch startcluster.sh (注意:如果是用遠程連接工具如notepad++,可能會報錯-bash: ./bi

原创 數據倉庫之Hive技術框架選型

Hive 技術框架剖析 1.1 數據存儲 ① 行存儲 基於 Hadoop 系統行存儲結構的優點在於快速數據加載和動態負載的高適應能力,但是行存儲不支持快速查詢,當查詢僅僅針對多列表中的少數幾列時,它不能跳過不必要的列讀取。同時,

原创 記錄在阿里雲下使用Ambari搭建部署Hadoop集羣

用的是CentOS7 效果圖 具體步驟和參考鏈接以及遇到的問題: 1.阿里雲服務器三臺CentOS 7 64位 Server:172.19.209.* Slave:172.19.240.* 172.19.96.* 網絡:NAT

原创 數據倉庫基本理論

1、關係模式範式 1.1 範式理論概述 關係型數據庫設計時,遵照一定的規範要求,目的在於降低數據的冗餘性和數據的一致性,目前業界範式有:第一範式(1NF)、第二範式(2NF)、第三範式(3NF)、巴斯-科德範式(BCNF)、第四範

原创 大數據項目重溫——電商數據倉庫(一)數據生成模塊

一、數據倉庫 1、數據倉庫概念 數據倉庫(DataWarehouse),可簡寫爲DW或DWH,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策支持目的而創建。爲需要業務智能的企業,提供指導業

原创 Flink深入學習與介紹【上】

一、Flink概述 1.1流處理技術的演變 在開源世界裏,Apache Storm項目是流處理的先鋒。Storm最早由Nathan Marz和創業公司BackType的一個團隊開發,後來才被Apache基金會接納。Storm提供了

原创 大數據項目重溫——電商數據倉庫(四)數據採集模塊(下)【完結】

9、數據採集模塊 (五).Kafka安裝 (1).Kafka集羣啓動停止腳本 1)在/home/weiwei/bin目錄下創建腳本kf.sh [weiwei@hadoop102 bin]$ vim kf.sh 在腳本中填寫如下

原创 數據倉庫之HBase技術框架剖析

Hbase 核心架構 1.Hbase 框架基礎 HBase 的數據在存放時會按照Rowkey 進行排序,所以HBase 中的數據都是按照Rowkey有序的。 HBase 的 Region 採用先橫向拆分再縱向拆分的方式。 所謂先

原创 【LeetCode 22】括號匹配的一種思路【簡單易懂】

import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class solution36_kuohaopipei {

原创 大數據項目重溫——電商數據倉庫(三)數據採集模塊(中)

9、數據採集模塊 (三).日誌生成 (1).日誌啓動 1)代碼參數說明 // 參數一:控制發送每條的延時時間,默認是0 Long delay = args.length > 0 ? Long.parseLong(args[0])

原创 Flink深入學習與介紹【下】

六、Time與Window 6.1 Time 在Flink的流式處理中,會涉及到時間的不同概念,如下圖所示: ① Event Time:是事件創建的時間。它通常由事件中的時間戳描述,例如採集的日誌數據中,每一條日誌都會記錄自己的

原创 Flink項目實踐【一】實時熱門商品統計

第1章 項目整體介紹 1.1 電商的用戶行爲 電商平臺中的用戶行爲頻繁且較複雜,系統上線運行一段時間後,可以收集到大量的用戶行爲數據,進而利用大數據技術進行深入挖掘和分析,得到感興趣的商業指標並增強對風險的控制。 電商用戶行爲數據

原创 數據倉庫——數據採集與同步【系統埋點設計】

系統埋點設計 1、數據分類 在工廠環境中,我們將數據倉庫獲取的數據劃分爲業務數據和用戶行爲數據。 1. 業務數據:業務流程中產生的交易、狀態流轉、用戶等相關的數據,通常存儲在 DB 中, 包括 rdbms、nosql等,這部分數據

原创 CM&CDH超詳細完美成功安裝學習記錄(比Ambari好裝多了-__-!)

1.1 CM簡介 1.1.1 CM簡介 Cloudera Manager是一個擁有集羣自動化安裝、中心化管理、集羣監控、報警功能的一個工具,使得安裝集羣從幾天的時間縮短在幾個小時內,運維人員從數十人降低到幾人以內,極大的提高集羣管

原创 大數據項目重溫——電商數據倉庫(二)數據採集模塊(上)

9、數據採集模塊 (一).Hadoop安裝 集羣規劃: 服務器hadoop102 服務器hadoop103 服務器hadoop104 HDFS NameNodeDataNode DataNode DataNodeSec