java crawler framework
Author : Janloong Do_O
1、crawler4j https://github.com/yasserg/crawler4j 擁有爬蟲的核心功能,所以上手極爲簡單,幾分鐘就可以寫一個多線程爬蟲程序。
2、雅虎開源的web爬蟲工具 https://github.com/yahoo/anthelion3、https://github.com/code4craft/webmagic · GitHub ,國人 黃億華 先生的良心大作。文檔在這裏 http://webmagic.io/docs/zh/4、nutch https://github.com/apache/nutch apache下的開源爬蟲程序,功能豐富,文檔完整。有數據抓取解析以及存儲的模塊。
5、https://github.com/ShenJianShou/crawler_samples 沒有找到源代碼,屬於雲爬蟲;jsoup包含http工具以及分析頁面的工具包 https://jsoup.org/okhttpshttp工具包
6、Spiderman http://git.oschina.net/l-weiwei/Spiderman2 最後更新一個月前
7、SeimiCrawler https://github.com/zhegexiaohuozi/SeimiCrawler 最後更新一個月前神射手
8、WebCollector https://github.com/CrawlScript/WebCollector 最後更新四個月前
9、Heritrix https://github.com/internetarchive/heritrix3 比較成熟,用的人比較多
10、Gecco https://github.com/xtuhcy/gecco
11、WebMagic https://github.com/code4craft/webmagic (個人使用過這個)