原创 【Hive】條件函數

Hive版本: hive-1.1.0-cdh5.14.2 1. if函數 語法:if(boolean testCondition, T valueTrue, T valueFalseOrNull) 返回值: T 描述:如果te

原创 【Hive】表生成(Table-Generating)函數

Hive版本: hive-1.1.0-cdh5.14.2 1. 列轉行函數:explode (1) 輸入類型爲array 語法:explode(ARRAY a) 返回值:T 描述:展開array,其中每個元素佔一行 0: jd

原创 【Hive】集合函數

函數名稱 返回值類型 描述 size(Map<K,V>) int 返回map類型數據的長度 size(Array) int 返回array類型數據的長度 map_keys(Map<K,V>) array 返回

原创 【Hive】字符串函數

Hive版本: hive-1.1.0-cdh5.14.2 1. 首字符轉ascii碼函數:ascii 語法:ascii(string str) 返回值:int 描述:返回字符串str首字符的ascii編碼 0: jdbc:hi

原创 【Hive】性能調優 - EXPLAIN

Hive版本: hive-1.1.0-cdh5.14.2 用戶提交HiveQL查詢後,Hive會把查詢語句轉換爲MapReduce作業。Hive會自動完成整個執行過程,一般情況下,我們並不用知道內部是如何運行的。但當查詢遇到性

原创 【Hive】分桶表

1. 什麼是分桶表 分桶表是按照某列屬性值,把數據打散存儲在不同文件的Hive表. 2. 分桶的原理 Hive官網解釋: How does Hive distribute the rows across the buckets?

原创 【Hive】Hive的三種交互方式

1. Hive shell #登錄 [hadoop@node03 ~]$ cd /kkb/install/hive-1.1.0-cdh5.14.2/ [hadoop@node03 hive-1.1.0-cdh5.14.2]$ bi

原创 【Hive】壓縮格式

常見壓縮格式 壓縮方式 壓縮比 壓縮速度 解壓縮速度 是否可分割 gzip 13.4% 21 MB/s 118 MB/s 否 bzip2 13.2% 2.4MB/s 9.5MB/s 是 lzo 20.5% 1

原创 【Hive】hive表的文件存儲格式

在Hive中,文件的存儲格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET。 其中,TEXTFILE、SEQUENCEFILE是基於行存儲,ORC、PARQUET基於列存儲。 1. 行存儲和列存儲 上

原创 【HBase】Java API - 向表中插入數據

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.h

原创 【Hive】Hive分區表

分區作爲一種提高數據操作靈活性的手段,被廣泛應用於關係型數據庫中。在Hive中我們同樣可以採用分區的方式來提高數據操作效率,不同於關係型數據庫(如Oracle),Hive的分區表既可以是內部表,也可以是外部表。 本篇文章主要介紹如

原创 【Hive】Hive的數據類型

Hive中數據類型可以分爲基本數據類型和複合數據類型。這些數據類型都是用Java實現的。 1. 基本數據類型 類型名稱 描述 舉例 boolean true/false true tinyint 1byte有符號

原创 【Hive】Hive內部表/外部表

1. 建表語句 Hive官網有詳細的建表語句。 CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- (Note: TEMPO

原创 【Oracle】ORA-30659: too many locations specified for external table

雖然這是一個“特別特別特別”難遇到的報錯,但還是寫出來吧,沒準有同樣和我一樣,好奇外部表可以加載多少文件的童鞋呢。oracle官方文檔是這樣解釋的: ORA-30659: too many locations specified for

原创 【Flume】Flume簡單介紹

1. 概述 Flume是一個分佈式、可靠和高可用的海量日誌採集、聚合和傳輸系統。 Flume可以採集多種數據,如:文件、socket數據包、文件夾、Kafka等,還可以將採集到的數據輸出到HDFS、HBase、Hive等多種存儲系