介紹一本搜索引擎爬蟲方面的好書

這學期去圖書館借書,無意間看到一本書《網絡機器人Java編程指南》。看了下感覺如獲至寶。
市面上講爬蟲的書可以說是沒有,基本上只有在搜索引擎類的書裏有提到,而且只是講個思想,沒有可以用的代碼。
而《網絡機器人Java編程指南》是徹頭徹尾講解web爬蟲的書籍,2002年出版的,目前已絕版。此書可說是非常珍貴
這是china-pub的鏈接http://www.china-pub.com/6565




進了作者Jeff Heaton的博客http://www.jeffheaton.com/,下到了源代碼,作者一直在更新,所以源代碼可以在JDK6.0上正常運行。速度很快。
相比如其他幾款開源爬蟲,本書的bot程序無疑更加簡單,靈活,快速。


heritrix太複雜,設計的比較亂。當時自己配置了很久。
nutch自己的定製性不夠好,url以二進制形式保存,管理起來很不方便。


書中的bot通過實現IWorkloadStorable接口的類來管理url鏈接,書中也給出了兩個實例SpiderSQLWorkload和SpiderInternalWorkload,一個在數據庫中管理url,另一個在內存中管理url。
另外書中的爬蟲設計上也更好,自己畫了張類圖




很佩服作者,那時還沒有HTML Parsers,所以作者自己寫了個實現。如果現在自己用的話,可以做個小小的修改,用更好的開源html解析工具。。
另外書中也提到了基於表單、https、Cookies的爬蟲,大開眼界。以前自己也寫過很多爬蟲,但在設計中總是缺少擴展性。
書中的bot程序也可以放在Hadoop運行,變成更加強大的分佈式爬蟲。比如:基於ProActive的分佈式並行Web Spider的設計與實現
看這本書的時候也發現自己學的網絡知識終於派上了用場,多線程也顯得很重要,需要有更多的考慮,而不是一味的run。
本書更像是通過編寫網絡爬蟲來提高自己的編程技術和相關知識,不管是不是搜索方面的開發者,都值得一讀。

 

我的CSDN原帖地址:介紹一本搜索引擎爬蟲方面的好書

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章