原创 從Hive表中進行數據抽樣-Sampling

在Hive中提供了數據取樣(SAMPLING)的功能,用來從Hive表中根據一定的規則進行數據取樣,Hive中的數據取樣支持分桶表取樣和數據塊取樣。 16.1 數據塊取樣(Block Sampling) block_sample: T

原创 Hive自定義UDF的JAR包加入運行環境的方法

Hive開發udf函數打包jar文件後,需將jar文件放入hive的運行環境,方法有三。先將http://blog.csdn.net/fjssharpsword/article/details/70265554中重定義的兩個類打包成Def

原创 乾貨:解碼OneData,阿里的數倉之路

摘要: 據IDC報告,預計到2020年全球數據總量將超過40ZB(相當於4萬億GB),這一數據量是2013年的10倍。正在“爆炸式”增長的數據的潛在巨大價值正在被髮掘,它有可能成爲商業世界的“新能源”,變革我們的生產,影響我們生活。當我

原创 【阿里在線技術峯會】李金波:企業大數據平臺倉庫架構建設思路

原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B 摘要: 在阿里巴巴在線在線技術峯會上的第三天,來自阿里雲高級技術專家李

原创 使用Hive實現時間拉鍊功能

背景: 在數據倉庫的數據模型設計過程中,經常會遇到如下的業務需求: 1. 表的數據量很大,大幾千萬或上億; 2. 表中的部分字段會被update更新操作,如用戶的上級領導,產品的描述信息,訂單的狀態等等; 3. 需要查看某一個時間點或

原创 jieba分詞

jieba “結巴”中文分詞:做最好的 Python 中文分詞組件 "Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best

原创 HDFS使用Kerberos

轉載自:http://www.datastart.cn/tech/2016/06/07/kerberos-1.html 本文嘗試記錄HDFS各服務配置使用kerberos的過程,配置的東西比較多,一定會有疏漏。 我的環境: 三臺服

原创 YARN、Spark、Hive使用kerberos

本文記錄YARN、Spark、Hive各服務配置使用kerberos的過程。 我的環境: 三臺服務器,分別命名爲zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1 Y

原创 Hive最新數據操作詳解(超級詳細)

數據操作能力是大數據分析至關重要的能力。數據操作主要包括:更改(exchange),移動(moving),排序(sorting),轉換(transf

原创 數據倉庫中的Inmon與Kimball架構之爭

       對於數據倉庫體系結構的最佳問題,始終存在許多不同的看法,甚至有人把Inmon和Kimball之爭稱之爲數據倉庫界的“宗教戰爭”,那麼本文就通過對兩位提倡的數據倉庫體系和市場流行的另一種體系做簡單描述和比較,不是爲了下定義那

原创 Hive集成HBase詳解

摘要 Hive提供了與HBase的集成,使得能夠在HBase表上使用HQL語句進行查詢 插入操作以及進行Join和Union等複雜查詢   應用場景 1. 將ETL操作的數據存入HBase 2. HBase作爲Hive的數據源

原创 Hive函數大全

Hive函數大全–完整版 現在雖然有很多SQL ON Hadoop的解決方案,像Spark SQL、Impala、Presto等等,但就目前來看,在基於Hadoop的大數據分析平臺、數據倉庫中,Hive仍然是不可替代的角色。儘管它的相

原创 大規模知識圖譜數據存儲實戰解析

本文轉自公衆號PlantData知識圖譜實戰(ID:KGPlantData),本文摘錄自上海海翼知信息科技有限公司胡芳槐博士4月14日在北京理工大學分享的《大規模知識圖譜數據存儲》PPT。 作者對知識圖譜的存儲進行了全面的介紹,內容

原创 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by     Hive中的order by跟傳統的sql語言中的order by作用是一樣的,會對查詢的結果做一次全局排序,所以說,只有hive的sql中制定了order by所有的數據都會到同一個reducer進行處理

原创 python 結巴分詞(jieba)學習

源碼下載的地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特點 1,支持三種分詞模式:     a,精確模式,試圖將句子最精確地切開