原创 大數據技術之HDFS文件系統(三)

四 HDFS 的數據流 4.1 HDFS 寫數據流程 4.1.1 剖析文件寫入 1)客戶端通過 Distributed FileSystem 模塊向 namenode 請求上傳文件,namenode 檢查目標 文件是否已存在,父目錄

原创 大數據技術之Hive(七)

十一、數據倉庫 11.1 什麼是數據倉庫 數據倉庫,英文名稱爲 Data Warehouse,可簡寫爲 DW 或 DWH。數據倉庫,是爲企業 所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它出於分析性報告和決策 支持目的而創建。

原创 大數據技術之HDFS文件系統(一)

一 HDFS 概述 1.1 HDFS 產生背景   隨着數據量越來越大,在一個操作系統管轄的範圍內存不下了,那麼就分配到更多的操 作系統管理的磁盤中,但是不方便管理和維護,迫切需要一種系統來管理多臺機器上的文件, 這就是分佈式文件管理系統

原创 大數據技術之Hive(五)

七 、函數 7.1 系統自帶的函數 1)查看系統自帶的函數 hive> show functions; 2)顯示自帶的函數的用法 hive> desc function upper; 3)詳細顯示自帶的函數的用法 hive> desc f

原创 大數據技術之sqoop(二)

四、Sqoop 的簡單使用案例 4.1、導入數據 在 Sqoop 中,“導入”概念指:從非大數據集羣(RDBMS)向大數據集羣(HDFS,HIVE, HBASE)中傳輸數據,叫做:導入,即使用 import 關鍵字。 4.1.1、RDBM

原创 大數據技術之Hive實戰——Youtube項目(一)

一、需求描述 統計 Youtube 視頻網站的常規指標,各種 TopN 指標: –統計視頻觀看數 Top10 –統計視頻類別熱度 Top10 –統計視頻觀看數 Top20 所屬類別包含這 Top20 視頻的個數 –統計視頻觀看數 Top5

原创 大數據技術之Hive(六)

九、企業級調優 9.1 Fetch 抓取 Fetch 抓取是指,Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。例如: SELECT * FROM employees;在這種情況下,Hive 可以簡單地讀取 emp

原创 大數據技術之HDFS文件系統(二)

三 HDFS 客戶端操作 3.1 HDFS 客戶端環境準備 3.1.1 jar 包準備 1)解壓 hadoop-2.7.2.tar.gz 到非中文目錄 2)進入 share 文件夾,查找所有 jar 包,並把 jar 包拷貝到_lib 文

原创 大數據技術之Hadoop(一)

一 大數據概論 1.1 大數據概念   大數據(big data):指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

原创 大數據技術之Hive實戰——Youtube項目(二)

三、項目 原始數據youtube在此下載:https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ 3.1、數據結構 3.1.1、視頻表 3.1.2、用戶表 3.2 原始數據存放地 HD

原创 大數據技術之Hadoop(四)

4.3 完全分佈式部署 Hadoop 分析: 1)準備 3 臺客戶機(關閉防火牆、靜態 ip、主機名稱) 2)安裝 jdk 3)配置環境變量 4)安裝 hadoop 5)配置環境變量 6)安裝 ssh 7)配置集羣 8)啓動

原创 大數據技術之Hive(三)

三、Hive 數據類型 3.1 基本數據類型 對於 Hive 的 String 類型相當於數據庫的 varchar 類型,該類型是一個可變的字符串, 不過它不能聲明其中最多能存儲多少個字符,理論上它可以存儲 2GB 的字符數。

原创 大數據技術之Hive(一)

一 、Hive 基本概念 1.1 什麼是 Hive   Hive:由 Facebook 開源用於解決海量結構化日誌的數據統計。   Hive 是基於 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射爲一張表,並提供類 SQL

原创 大數據技術之Hadoop(二)

三 、Hadoop 運行環境搭建 3.1 虛擬機網絡模式設置爲 NAT 最後,重新啓動系統。 [root@hadoop101 ~]# sync [root@hadoop101 ~]# reboot 3.2 克隆虛擬機 1)

原创 大數據技術之Hadoop(三)

四 、Hadoop 運行模式 1)官方網址 (1)官方網站:     http://hadoop.apache.org/ (2)各個版本歸檔庫地址     https://archive.apache.org/dist/hadoop/co