原创 Hive SQL 窗口函數

本文首發:大數據每日嗶嗶-Hive SQL 窗口函數 Hive 的窗口函數 在 SQL 中有一類函數叫做聚合函數,例如 sum()、avg()、max()、min() 等等,這類函數可以將多行數據按照規則聚集爲一行,一般來講聚集後的行數是

原创 乾貨 | 有贊數據倉庫實踐之路

數據倉庫怎麼學? 從混沌期、建設期到成熟期、有贊數據倉庫是怎麼實踐的? 一、大數據環境下的有贊數據倉庫 二、發展歷程 混沌期 (亂) 建設期(數倉分層、主題域劃分、權限設計、數據字典、任務等級) 成熟期(維度建模VS寬表、重新設

原创 Hive 分析函數

本文首發於:大數據每日嗶嗶-Hive 分析函數 應用場景 (1)用於分區排序(2)Top N(3)層次查詢 常用分析函數 分析函數 描述 RANK 返回數據項在分區中的排名。排名值序列可能會有間隔 DENSE

原创 Spark 報錯 DROP TABLE IF EXISTS should not show AnalysisException

spark-sql 執行執行 drop table if exists xxxx 的時候,報錯信息如下: DROP TABLE IF EXISTS should not show AnalysisException,找不到表xxx

原创 groovy 對 list 排序

在groovy中對list排序是很簡單的事情。比如: def list=[] list<<[name:"aa",age:1] list<<[name:"bb",age:22] list<<[name:"cc",age:33] li

原创 Hive 的窗口函數

本文首發於:微信公衆號【大數據每日嗶嗶,文章:Hive SQL 窗口函數 在 SQL 中有一類函數叫做聚合函數,例如 sum()、avg()、max()、min() 等等,這類函數可以將多行數據按照規則聚集爲一行,一般來講聚集後的

原创 大數據平臺之初體驗 | 網易猛獁 | 數據倉庫、調度系統、數據質量、離線與實時計算應有盡有。

一句話介紹 一站式大數據管理和應用開發平臺,具有敏捷易用,成熟穩定,安全可靠,開放靈活的特點。 平臺架構 產品功能 1、大規模數據存儲與計算 支持不同的存儲方案和計算方案,靈活滿足客戶的需求。支持 HDFS、Hbase、Kudu

原创 分佈式系統以及CAP原理

分佈式系統以及CAP原理 文章首發於微信公衆號:大數據每日嗶嗶。文章:分佈式系統以及 CAP 原理 ● 本文主要分爲以下幾個部分:什麼是分佈式系統對 CAP 的一點理解一點總結參考文獻擴展閱讀 一、什麼是分佈式系統? 關於分佈式系

原创 選擇適合自己的 OLAP 引擎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr