原创 Java主題爬蟲Gecco發佈1.0.4版本

https://github.com/xtuhcy/gecco 主要特徵 1、簡單易用,使用jquery的css selector風格抽取元素 2、支持頁面中的異步ajax請求 3、支持頁面中的javascript變量抽取 4、利用Re

原创 一個易用的輕量級的網絡爬蟲(Easy to use lightweight web crawler)

  GECCO(易用的輕量化的網絡爬蟲) 初衷 現在開發應用已經離不開爬蟲,網絡信息浩如煙海,對互聯網的信息加以利用是如今所有應用程序都必須要掌握的技術。瞭解過現在的一些爬蟲軟件,python語言編寫的爬蟲框架scrapy得到了較

原创 使用Gecco主題爬蟲爬取旅遊折扣信息

        Gecco爬蟲已經開發有一個多月了,爬蟲的大部分功能已經實現,是需要檢驗一下爬蟲的時候了。         之所以開發Gecco這樣的一個爬蟲,也是我之前開發了不少類似的應用有關,這些應用都需要爬取其他網站的信息,並且結

原创 轉載一篇單字符串匹配KMP算法最好理解的文章

字符串匹配的KMP算法 http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html   字符串匹配是計算機的基本任

原创 正則表達式的完全匹配和部分匹配

最近在開發gecco的開源爬蟲時混淆了正則表達的部分匹配和完全匹配的概念,記錄一下。 java的正則表達式有個很容易混淆的概念,部分匹配和完全匹配: 在Matcher類中有matches、lookingAt和find都是匹配目標的方法,

原创 JAVA開源軟件開發必備技能-發佈構建到maven中央倉庫

JAVA開源軟件開發必備技能 發佈構建到maven中央倉庫的方法和詳細步驟 sonatype介紹 向sonatype提交申請 配置maven GPG簽名 發佈版本 通知sonatype sonatype介紹 Maven項目託管在A

原创 java爬蟲gecco支持htmlunit

java爬蟲gecco支持htmlunit java爬蟲gecco發佈了1.0.5版本,增加了對htmlunit的支持。htmlunit是一款開源的java 頁面分析工具,讀取頁面後,可以有效的使用htmlunit分析頁面上的內容。項目

原创 教您使用java爬蟲gecco抓取JD全部商品信息(三)

教您使用java爬蟲gecco抓取JD全部商品信息(二) 詳情頁抓取 商品的基本信息抓取完成後,就要針對每個商品的詳情頁進行抓取,可以看到詳情頁的地址格式一般如下:http://item.jd.com/1861098.html。我們建立

原创 加密技術入門——從對稱加密到CA證書

加密技術入門——從對稱加密到CA證書 幾個基本概念 對稱加密 對稱加密是最傳統的加密方式,簡單說就是用一個密鑰對原文加密,再用同樣密鑰對原文解密。對稱加密的優點就是加密速度快,但是缺點也很明顯,密鑰的傳遞無法保障。常見的對稱加密算法

原创 教您使用java爬蟲gecco抓取JD全部商品信息(二)

教您使用java爬蟲gecco抓取JD全部商品信息(一) 抓取商品列表信息 AllSortPipeline已經將需要進一步抓取的商品列表信息的鏈接提取出來了,可以看到鏈接的格式是:http://list.jd.com/list.html

原创 java開源爬蟲gecco發佈版本1.0.6,更靈活的配置downloader

1.0.6Release 1、修改request的原始流raw被關閉的bug 2、將downloader關聯到gecco上,@Gecco增加downloader和timeout選項   @Gecco(matchUrl="https

原创 java爬蟲gecco的穩定性測試

java爬蟲gecco的穩定性測試 最近對開源的java爬蟲Gecco做了一個穩定性測試,測試環境:一臺爬蟲+web應用服務器,一臺mongodb服務器。服務器配置很low,兩臺都是阿里雲最低端的主機,1核+512內存。 單線程測試場景

原创 教您使用java爬蟲gecco抓取JD全部商品信息(一)

教您使用java爬蟲gecco抓取JD全部商品信息(一) gecco爬蟲 如果對gecco還沒有了解可以參看一下gecco的github首頁。gecco爬蟲十分的簡單易用,JD全部商品信息的抓取9個類就能搞定。 JD網站的分析 要抓取J

原创 java開源爬蟲gecco詳細文檔新鮮出爐

抽空進行了Gecco爬蟲文檔的撰寫,目錄如下:   Gecco是什麼 1. 一分鐘你就可以寫一個簡單爬蟲 2. 軟件總體結構 3. 從下載說起 4. 抽取頁面內容 5. 業務邏輯處理   地址:https://xtuhcy.gitboo

原创 java開源爬蟲gecco 發佈1.0.8版本

gecco 1.0.8 發佈了。 1.0.8版本主要做了如下修改: GeccoEngine增加loop方法,支持不循環抓取。gecco默認將改爲採用不循環抓取2.支持移動端的UserAgent,通過GeccoEngine.mobile