原创 Hadoop學習——其它(集羣,MR調優,數據傾斜等)

1、Hadoop2.0的高可用 有兩個NameNode節點,一個active,一個standby(時刻同步active的數據),從而實現高可用。 兩個NameNode之間通過JournalNodes的獨立進程進行通信,當active中的N

原创 Hadoop 壓縮

摘錄自《Hadoop 權威指南》—— 第四版 文件壓縮有兩種好處:減少存儲文件所需要的磁盤空間,並加速數據在網絡和磁盤上的傳輸。這兩大好處在處理數據時相當重要,值得仔細考慮在 Hadoop 中文件壓縮的用法。 有很多種不同的壓