Pig在Hadoop Pig Latin,並行的數據流語言
pig是hadoop上層的衍生架構,與hive類似。對比hive(hive類似sql,是一種聲明式的語言),pig是一種過程語言,類似於存儲過程一步一步得進行數據轉化。
5.Pig Latin的介紹
大小寫敏感
註釋
輸入和輸出
加載(Load)
存儲(Store)
轉儲(dump)
pig數據類型
double > float > long > int > bytearray
tuple|bag|map|chararray > bytearray
double float long int chararray bytearray都相當於pig的基本類型
tuple相當於數組 ,但是可以類型不一,舉例('dirkzhang','dallas',41)
Bag相當於tuple的一個集合,舉例{('dirk',41),('kedde',2),('terre',31)},在group的時候會生成bag
Map相當於哈希表,key爲chararray,value爲任意類型,例如['name'#dirk,'age'#36,'num'#41
nulls 表示的不只是數據不存在,他更表示數據是unkown
http://lxneliu.iteye.com/blog/1669226