pig 是什麼?

1. 什麼是pig? 
Pig在Hadoop  Pig Latin,並行的數據流語言 
pig是hadoop上層的衍生架構,與hive類似。對比hive(hive類似sql,是一種聲明式的語言),pig是一種過程語言,類似於存儲過程一步一步得進行數據轉化。


5.Pig Latin的介紹 

大小寫敏感 
註釋 
輸入和輸出 
加載(Load)  
存儲(Store) 
轉儲(dump)

pig數據類型
double > float > long > int > bytearray
tuple|bag|map|chararray > bytearray
double float long int chararray bytearray都相當於pig的基本類型
tuple相當於數組 ,但是可以類型不一,舉例('dirkzhang','dallas',41)
Bag相當於tuple的一個集合,舉例{('dirk',41),('kedde',2),('terre',31)},在group的時候會生成bag
Map相當於哈希表,key爲chararray,value爲任意類型,例如['name'#dirk,'age'#36,'num'#41

nulls 表示的不只是數據不存在,他更表示數據是unkown


http://lxneliu.iteye.com/blog/1669226

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章