純真IP數據庫格式詳解

摘要
網絡上的IP數據庫以純真版的最爲流行，LumaQQ也採用了純真版IP數據庫做爲IP查詢功能的基礎。不過關於其格式的文檔卻非常之少，後來終於在網上找到了一份文檔，得以瞭解其內幕，不過那份文檔寥寥數語，也是頗爲耐心纔讀明白。在這裏我重寫一份，以此做爲LumaQQ開發者文檔的一部分，我想還是必要的。本文詳細介紹了純真IP數據庫的格式，並且給出了一些Demo以供參考。
Luma, 清華大學
修改日期： 2005/01/14

Note: 在此感謝純真IP數據庫作者金狐和那唯一一份文檔的作者。
修改歷史:
2005-01-14 修改了原來一些表達不清和錯誤的地方

自從有了IP數據庫這種東西，QQ外掛的顯示IP功能也隨之而生，本人見識頗窄，是否還有其他應用不得而知，不過，IP數據庫確實是個不錯的東西。如今網絡上最流行的IP數據庫我想應該是純真版的（說錯了也不要扁我），迄今爲止其IP記錄條數已經接近30000，對於有些IP甚至能精確到樓層，不亦快哉。2004年4、5月間，正逢LumaQQ破土動工，爲了加上這個人人都喜歡，但是好像人人都不知道爲什麼喜歡的顯IP功能，我也採用了純真版IP數據庫，它的優點是記錄多，查詢速度快，它只用一個文件QQWry.dat就包含了所有記錄，方便嵌入到其他程序中，也方便升級。

基本結構

QQWry.dat文件在結構上分爲3塊：文件頭，記錄區，索引區。一般我們要查找IP時，先在索引區查找記錄偏移，然後再到記錄區讀出信息。由於記錄區的記錄是不定長的，所以直接在記錄區中搜索是不可能的。由於記錄數比較多，如果我們遍歷索引區也會是有點慢的，一般來說，我們可以用二分查找法搜索索引區，其速度比遍歷索引區快若干數量級。圖1是QQWry.dat的文件結構圖。

圖1. QQWry.dat文件結構

要注意的是，QQWry.dat裏面全部採用了little-endian字節序

一. 瞭解文件頭

QQWry.dat的文件頭只有8個字節，其結構非常簡單，首四個字節是第一條索引的絕對偏移，後四個字節是最後一條索引的絕對偏移。

二. 瞭解記錄區

每條IP記錄都由國家和地區名組成，國家地區在這裏並不是太確切，因爲可能會查出來“清華大學計算機系”之類的，這裏清華大學就成了國家名了，所以這個國家地區名和IP數據庫製作的時候有關係。所以記錄的格式有點像QName，有一個全局部分和局部部分組成，我們這裏還是沿用國家名和地區名的說法。

於是我們想象着一條記錄的格式應該是: [IP地址][國家名][地區名]，當然，這個沒有什麼問題，但是這只是最簡單的情況。很顯然，國家名和地區名可能會有很多的重複，如果每條記錄都保存一個完整的名稱拷貝是非常不理想的，所以我們就需要重定向以節省空間。所以爲了得到一個國家名或者地區名，我們就有了兩個可能：第一就是直接的字符串表示的國家名，第二就是一個4字節的結構，第一個字節表明了重定向的模式，後面3個字節是國家名或者地區名的實際偏移位置。對於國家名來說，情況還可能更復雜些，因爲這樣的重定向最多可能有兩次。

那麼什麼是重定向模式？根據上面所說，一條記錄的格式是[IP地址][國家記錄][地區記錄]，如果國家記錄是重定向的話，那麼地區記錄是有可能沒有的，於是就有了兩種情況，我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明：

圖2. IP記錄的最簡單形式

圖2表示了最簡單的IP記錄格式，我想沒有什麼可以解釋的

圖3. 重定向模式1

圖3演示了重定向模式1的情況。我們看到在模式1的情況下，地區記錄也跟着國家記錄走了，在IP地址之後只剩下了國家記錄的4字節，後面3個字節構成了一個指針，指向了實際的國家名，然後又跟着地址名。模式1的標識字節是0x01。

圖4. 重定向模式2

圖4演示了重定向模式2的情況。我們看到了在模式2的情況下（其標識字節是0x02），地區記錄沒有跟着國家記錄走，因此在國家記錄之後4個字節之後還是有地區記錄。我想你已經明白了模式1和模式2的區別，即：模式1的國家記錄後面不會再有地區記錄，模式2的國家記錄後會有地區記錄。下面我們來看一下更復雜的情況。

圖5. 混和情況1

圖5演示了當國家記錄爲模式1的時候可能出現的更復雜情況，在這種情況下，重定向指向的位置仍然是個重定向，不過第二次重定向爲模式2。大家不用擔心，沒有模式3了，這個重定向也最多隻有兩次，並且如果發生了第二次重定向，則其一定爲模式2，而且這種情況只會發生在國家記錄上，對於地區記錄，模式1和模式2是一樣的，地區記錄也不會發生2次重定向。不過，這個圖還可以更復雜，如圖7：

圖6. 混和情況2

圖6是模式1下最複雜的混和情況，不過我想應該也很好理解，只不過地區記錄也來重定向而已，有一點我要提醒你，如果重定向的地址是0，則表示未知的地區名。

所以我們總結如下：一條IP記錄由[IP地址][國家記錄][地區記錄]組成，對於國家記錄，可以有三種表示方式：字符串形式，重定向模式1和重定向模式2。對於地區記錄，可以有兩種表示方式：字符串形式和重定向，另外有一條規則：重定向模式1的國家記錄後不能跟地區記錄。按照這個總結，在這些方式中合理組合，就構成了IP記錄的所有可能情況。

設計的理由

在我們繼續去了解索引區的結構之前，我們先來了解一下爲何記錄區的結構要如此設計。我想你可能想到了答案：字符串重用。沒錯，在這種結構下，對於一個國家名和地區名，我只需要保存其一次就可以了。我們舉例說明，爲了表示方便，我們用小寫字母代表IP記錄，C表示國家名，A表示地區名：

有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2, A1 = A2，那麼我們就可以使用圖3顯示的結構來實現重用
有三條記錄a(C1, A1), b(C2, A2), c(C3, A3)，如果C1 = C2, A2 = A3，現在我們想存儲記錄b，那麼我們可以用圖6的結構來實現重用
有兩條記錄a(C1, A1), b(C2, A2)，如果C1 = C2，現在我們想存儲記錄b，那麼我們可以採用模式2表示C2，用字符串表示A2

你可以舉出更多的情況，你也會發現在這種結構下，不同的字符串只需要存儲一次。

瞭解索引區

在"瞭解文件頭"部分，我們說明了文件頭實際上是兩個指針，分別指向了第一條索引和最後一條索引的絕對偏移。如圖8所示：

圖8. 文件頭指向索引區圖示

實在是很簡單，不是嗎？從文件頭你就可以定位到索引區，然後你就可以開始搜索IP了！每條索引長度爲7個字節，前4個字節是起始IP地址，後三個字節就指向了IP記錄。這裏有些概念需要說明一下，什麼是起始IP，那麼有沒有結束IP？假設有這麼一條記錄：166.111.0.0 - 166.111.255.255，那麼166.111.0.0就是起始IP，166.111.255.255就是結束IP，結束IP就是IP記錄中的那頭4個字節，這下你應該就清楚了吧。於是乎，每條索引配合一條記錄，構成了一個IP範圍，如果你要查找166.111.138.138所在的位置，你就會發現166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個範圍內，那麼你就可以順着這條索引去讀取國家和地區名了。那麼我們給出一個最詳細的圖解吧：

圖9. 文件詳細結構

現在一切都清楚了是不是？也許還有一點你不清楚，QQWry.dat的版本信息存在哪裏呢？答案是：最後一條IP記錄實際上就是版本信息，最後一條記錄顯示出來就是這樣：255.255.255.0 255.255.255.255 純真網絡 2004年6月25日IP數據。OK，到現在你應該全部清楚了。

Demo

下一步：我給出一個讀取IP記錄的程序片斷，此片斷摘錄自LumaQQ源文件edu.tsinghua.lumaqq.IPSeeker.java，如果你有興趣，可以下載源代碼詳細看看。

	/**
	 * 給定一個ip國家地區記錄的偏移，返回一個IPLocation結構
	 * @param offset 國家記錄的起始偏移
	 * @return IPLocation對象
	 */
	private IPLocation getIPLocation(long offset) {
		try {
			// 跳過4字節ip
			ipFile.seek(offset + 4);
			// 讀取第一個字節判斷是否標誌字節
			byte b = ipFile.readByte();
			if(b == REDIRECT_MODE_1) {
				// 讀取國家偏移
				long countryOffset = readLong3();
				// 跳轉至偏移處
				ipFile.seek(countryOffset);
				// 再檢查一次標誌字節，因爲這個時候這個地方仍然可能是個重定向
				b = ipFile.readByte();
				if(b == REDIRECT_MODE_2) {
					loc.country = readString(readLong3());
					ipFile.seek(countryOffset + 4);
				} else
					loc.country = readString(countryOffset);
				// 讀取地區標誌
				loc.area = readArea(ipFile.getFilePointer());
			} else if(b == REDIRECT_MODE_2) {
				loc.country = readString(readLong3());
				loc.area = readArea(offset + 8);
			} else {
				loc.country = readString(ipFile.getFilePointer() - 1);
				loc.area = readArea(ipFile.getFilePointer());
			}
			return loc;
		} catch (IOException e) {
			return null;
		}
	}	

	/**
	 * 從offset偏移開始解析後面的字節，讀出一個地區名
	 * @param offset 地區記錄的起始偏移
	 * @return 地區名字符串
	 * @throws IOException 地區名字符串
	 */
	private String readArea(long offset) throws IOException {
		ipFile.seek(offset);
		byte b = ipFile.readByte();
		if(b == REDIRECT_MODE_1 || b == REDIRECT_MODE_2) {
			long areaOffset = readLong3(offset + 1);
			if(areaOffset == 0)
				return LumaQQ.getString("unknown.area");
			else
				return readString(areaOffset);
		} else
			return readString(offset);
	}

	/**
	 * 從offset位置讀取3個字節爲一個long，因爲java爲big-endian格式，所以沒辦法
	 * 用了這麼一個函數來做轉換
	 * @param offset 整數的起始偏移
	 * @return 讀取的long值，返回-1表示讀取文件失敗
	 */
	private long readLong3(long offset) {
		long ret = 0;
		try {
			ipFile.seek(offset);
			ipFile.readFully(b3);
			ret |= (b3[0] & 0xFF);
			ret |= ((b3[1] << 8) & 0xFF00);
			ret |= ((b3[2] << 16) & 0xFF0000);
			return ret;
		} catch (IOException e) {
			return -1;
		}
	}	
	
	/**
	 * 從當前位置讀取3個字節轉換成long
	 * @return 讀取的long值，返回-1表示讀取文件失敗
	 */
	private long readLong3() {
		long ret = 0;
		try {
			ipFile.readFully(b3);
			ret |= (b3[0] & 0xFF);
			ret |= ((b3[1] << 8) & 0xFF00);
			ret |= ((b3[2] << 16) & 0xFF0000);
			return ret;
		} catch (IOException e) {
			return -1;
		}
	}

	/**
	 * 從offset偏移處讀取一個以0結束的字符串
	 * @param offset 字符串起始偏移
	 * @return 讀取的字符串，出錯返回空字符串
	 */
	private String readString(long offset) {
		try {
			ipFile.seek(offset);
			int i;
			for(i = 0, buf[i] = ipFile.readByte(); buf[i] != 0; buf[++i] = ipFile.readByte());
			if(i != 0) 
			    return Utils.getString(buf, 0, i, "GBK");
		} catch (IOException e) {			
		    log.error(e.getMessage());
		}
		return "";
	}

代碼並不複雜，getIPLocation是主要方法，它檢查國家記錄格式，並針對字符串形式，模式1，模式2採用不同的代碼，readArea則相對簡單，因爲只有字符串和重定向兩種情況需要處理。

總結

純真IP數據庫的結構使得查找IP簡單迅速，不過你想要編輯它卻是比較麻煩的，我想應該需要專門的工具來生成QQWry.dat文件，由於其文件格式的限制，你要直接添加IP記錄就不容易了。不過，能查到IP已經很開心了，希望純真記錄越來越多～。

轉自 LumaQQ 開發者文檔

純真IP數據庫格式詳解

純真IP數據庫格式詳解

基本結構

一. 瞭解文件頭

二. 瞭解記錄區

設計的理由

瞭解索引區

Demo

總結

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

大齡程序員思考

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

nuget添加readme

創建控制檯程序

數據庫表映射Delphi類的一個小程序

MemProof教程

AQTime教程

純真IP數據庫格式詳解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結