HIVE lateral view語句

原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#

lateral view用於和split, explode等UDTF一起使用,它能夠將一列數據拆成多行數據,在此基礎上可以對拆分後的數據進行聚合。

一個簡單的例子,假設我們有一張表pageAds,它有兩列數據,第一列是pageid string,第二列是adid_list,即用逗號分隔的廣告ID集合:

string pageid Array<int> adid_list
"front_page" [1, 2, 3]
"contact_page" [3, 4, 5]

要統計所有廣告ID在所有頁面中出現的次數。

首先分拆廣告ID:

  1. SELECT pageid, adid
  2. FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid;

執行結果如下:

string pageid int adid
"front_page" 1
"front_page" 2
"front_page" 3
"contact_page" 3
"contact_page" 4
"contact_page" 5

接下來就是一個聚合的統計:

  1. SELECT adid, count(1)
  2. FROM pageAds LATERAL VIEW explode(adid_list) adTable AS adid
  3. GROUP BY adid;
  4. 執行結果如下:
int adidcount(1)
11
21
32
41
51
多個lateral view語句: 一個FROM語句後可以跟多個lateral view語句,後面的lateral view語句能夠引用它前面的所有表和列名。 以下面的表爲例:
Array<int> col1Array<string> col2
[1, 2][a", "b", "c"]
[3, 4][d", "e", "f"]
  1. SELECT myCol1, col2 FROM baseTable
  2. LATERAL VIEW explode(col1) myTable1 AS myCol1;
的執行結果爲:
int mycol1Array<string> col2
1[a", "b", "c"]
2[a", "b", "c"]
3[d", "e", "f"]
4[d", "e", "f"]

加上一個lateral view:
  1. SELECT myCol1, myCol2 FROM baseTable
  2. LATERAL VIEW explode(col1) myTable1 AS myCol1
  3. LATERAL VIEW explode(col2) myTable2 AS myCol2;

它的執行結果爲:
int myCol1string myCol2
1"a"
1"b"
1"c"
2"a"
2"b"
2"c"
3"d"
3"e"
3"f"
4"d"
4"e"
4"f"

注意上面語句中,兩個lateral view按照出現的次序被執行。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章