java開源爬蟲gecco 發佈1.0.8版本

gecco 1.0.8 發佈了。

1.0.8版本主要做了如下修改:

  1. GeccoEngine增加loop方法,支持不循環抓取。gecco默認將改爲採用不循環抓取
    2.支持移動端的UserAgent,通過GeccoEngine.mobile(true)設置
    3.支持配置初始化地址,自動掃描classpath根目錄下的starts.json文件
    4.HttpResponse增加釋放raw的方法
    5.GeccoEngine增加close方法,爬取結束後可以釋放downloader下載資源

gecco是一款易用的輕量化網絡爬蟲。十分的容易上手。

主要特徵:

  1. 簡單易用,使用jquery風格的選擇器抽取元素
    2.支持頁面中的異步ajax請求
    3.支持頁面中的javascript變量抽取
    4.利用Redis實現分佈式抓取,參考gecco-redis
    5.支持結合Spring開發業務邏輯,參考gecco-spring
    6.支持htmlunit擴展,參考gecco-htmlunit
    7.支持插件擴展機制
    8.支持下載時UserAgent隨機選取
    9.支持下載代理服務器隨機選取

發佈了35 篇原創文章 · 獲贊 1 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章