序列化概述

序列化定義

對象只存在於內存中，關機斷電就沒有了，而且激活的對象只能由本地的進程使用，不能被髮送到網絡上的另一臺計算機上。序列化是程序數據存儲的一種形式。儲存的數據可以被再次提取以及發送到另一臺設備上。

Java的序列化是一個重量級的序列化框架 (Serializable),一個對象被序列化後，會附帶很多額外的信息(各種校驗信息，Header，繼承體系等)，不便於在網絡中高效的傳輸。所以，Hadoop自己開發了一套序列化機制(Writable)。

Java中的常用類型，在Hadoop中都有對應的序列化實現類。其對應關係如下圖所示：

在企業開發中往往常用的基本序列化類型不能滿足所有需求，比如在Hadoop框架內部傳遞一個bean對象，那麼該對象就需要實現序列化接口。
具體實現bean對象序列化步驟如下7步。

public Bean() {
	super();
}

@Override
public void write(DataOutput out) throws IOException {
	out.writeLong(attr1);
	out.writeLong(attr2);
	out.writeLong(attr3);
}

@Override
public void readFields(DataInput in) throws IOException {
	attr1 = in.readLong();
	attr2 = in.readLong();
	attr3 = in.readLong();
}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.