第五章 Hadoop的I/O操作

Hadoop自帶一套原子操作用於數據I/O操作。主要考慮的問題是數據完整性、數據壓縮、序列號、on-disk數據結構。

5.1 數據完整性

如果需要處理的數據大到Hadoop的處理極限，數據損壞的機率還是很高的。
檢測數據是否損壞的常用措施是在數據第一次引入系統時計算校驗和（checksum），並在數據通過一個不可靠的通道傳輸後再次計算校驗和。但是該技術只能檢測數據錯誤但是不能修復數據，且校驗和也有可能損壞。
Hadoop ChecksumfileSystem 使用CRC-32計算校驗和，HDFS則用一個更有效的變體CRC-32C。

HDFS會對所有寫入的數據計算校驗和，並在讀取數據時驗證校驗和。
datanode負責在存儲數據及校驗和之前對數據進行驗證。包括收到客戶端數據或者複製其他datanode數據時執行校驗操作。管線中的最後一個datanode負責驗證校驗和，若檢測到錯誤，會拋出一個IOException異常的一個子類，應用程序需要對該異常做出處理，比如重試。
每個datanode也會定期掃描數據，檢測是否存在數據錯誤。
HDFS存儲着每個數據塊的複本（replica），因此可以修復損壞的數據塊。
可以用fs -checksum來檢查一個文件的校驗和，可以檢查兩個文件是否具有相同的內容。

Hadoop的LocalFileSystem執行客戶端的校驗和驗證。

LocalFileSystem通過ChecksumFileSystem實現自己的任務。

codec是壓縮-解壓縮算法的一種實現，在Hadoop中一個對CompressionCode接口的實現代表一個codec。