原创 星型模型與雪花模型的區別、分別有哪些優缺點【轉載】

原文鏈接: https://blog.csdn.net/winterPassing/article/details/105929303 概念 根據事實表和維度表的關係,可將常見的模型分爲星型模型和雪花模型。在數據倉庫的建設中,一般都會圍繞

原创 Hive 建表詳解

注:hive其他語法在hive官網有說明,建議初學者,去官網學習一手的資料, 官網:https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentatio

原创 分析函數用法及窗口子句 range/rows差別,及利用分析函數窗口求今日值、昨日值、上週同日值、近7天均值、30天均值 案例

分析函數的語法結構一般是:分析函數名(參數) OVER (PARTITION BY子句 ORDER BY子句 ROWS/RANGE子句)。 即由以下三部分組成: 分析函數名:如sum、max、min、count、avg等聚集函數以及lea

原创 hadoop 通過distcp並行複製。

hadoop權威指南第四版 Hadoop自帶一個有用程序distcp,該程序可以並行從Hadoop文件系統中複製大量數據,也可以系那個大量數據複製到Hadoop中。         Distcp的一種用法是替代 hadoop fs -cp

原创 HIVE中常用的日期函數

1、to_date:日期時間轉日期函數 select to_date('2019-09-02 11:34:12'); 輸出:2019-09-02 2、from_unixtime:轉化unix時間戳到當前時區的時間格式 select fro

原创 Linux解決中文亂碼問題及LANG與NLS_LANG的區別

在系統中安裝了不同的語言包和不同的字體,系統是如何判斷我所要的語言界面並調用相關的字體的呢?系統中那些文件和變量在控制這些呢? 可以使用locale命令,查看當前系統默認採用的字符集 locale LANG=en_US.UTF-8 L

原创 數據倉庫 Inmon與Kimball數倉理論對比

Kimball和Inmon是兩種主流的數據倉庫方法論,分別由 Ralph Kimbal大神 和 Bill Inmon大神提出,在實際數據倉庫建設中,業界往往會相互借鑑使用兩種開發模式 Inmon和Kimball是數據倉庫領域偉大的開拓者,

原创 YARN作業運行機制及三種資源調度器(FIFO/容量/公平調度器)

原 Hadoop MapReduce 框架的問題 從上圖中可以清楚的看出原 MapReduce 程序的流程及設計思路: 首先用戶程序 (JobClient) 提交了一個 job,job 的信息會發送到 Job Tracker 中,Job

原创 列存儲格式Parquet淺析

Apache Parquet是Hadoop生態圈中一種新型列式存儲格式,它可以兼容Hadoop生態圈中大多數計算框架(Hadoop、Spark等),被多種查詢引擎支持(Hive、Impala、Drill等),並且它是語言和平臺無關的。Pa

原创 Spark算子:幾種不同的RDD創建操作

通過HiveContext創建RDD Apache Hive 是 Hadoop 上的一種常見的結構化數據源。Hive 可以在 HDFS 內或者在其他 存儲系統上存儲多種格式的表。這些格式從普通文本到列式存儲格式,應有盡有。Spark SQ

原创 Oracle 12c及以上版本json_table

運行環境:SQLPLUS, SERVEROUTPUT已打開 我有一張用戶表,包含一個JSON列,裏面是他們的社交媒體資料: create table qz_users ( id integer primary key

原创 HDFS的高級API操作 各種java 操作demo【轉載】

原文鏈接:https://www.cnblogs.com/frankdeng/p/9061449.html 一 HDFS客戶端環境準備 1.1 jar包準備 1)解壓hadoop-2.7.6.tar.gz到非中文目錄 2)進入share文

原创 hadoop 分佈式集羣中HDFS系統的各種角色(namenode datanode SecondaryNameNode)

NameNode 學習目標 理解 namenode 的工作機制尤其是元數據管理機制,以增強對 HDFS 工作原理的 理解,及培養 hadoop 集羣運營中“性能調優”、“namenode”故障問題的分析解決能力 問題場景 1、Nameno

原创 hadoop 一致性模型,確保斷電不丟數據(hflush() 和 hsync())

原文鏈接:https://www.infoq.cn/article/large-data-processing-ensuring-data-not-lost-when-power-off 在 Hadoop 2.0.2-alpha 之前,H

原创 Spark算子,RDD鍵值轉換操作 partitionBy、flatMapValues、mapValues

partitionBy def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函數根據partitioner函數生成新的ShuffleRDD,將原RDD重新分區。 scala>