heritrix 提高抓取速度

最近一直用heritrix爬取網站,  晚上heritrix一直運行着, 但奇怪的是heritrix 抓取速度非常慢, 抓取一個網站, 用了8個多小時, 竟然沒有運行完。 於是根據LOG 分析了一下慢的原因

 

Java代碼  收藏代碼
  1.  -----===== SNOOZED QUEUES =====-----  
  2. SNOOZED#0:  
  3. Queue us,imageshack,img245,+2 (p1)  
  4.   1 items  
  5.    wakes in: 99m19s74ms  
  6.     last enqueued: <a href="http://img245.xxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg">http://img245.xxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg  
  7. </a>      last peeked: <a href="http://img245.xxxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg">http://img245.xxxx.us/img245/596/193183637x01ss500sclzzzbx0.jpg  
  8. </a>   total expended: 12 (total budget: -1)  
  9.    active balance: 2988  
  10.    last(avg) cost: 1(1)  
  11.    totalScheduled fetchSuccesses fetchFailures fetchDisregards fetchResponses robotsDenials successBytes totalBytes fetchNonResponses  
  12.    2 1 0 0 1 0 59 59 12  
  13.    SimplePrecedenceProvider  
  14.    1  

 SNOOZED QUene 裏面有一些圖片一直在那裏, 並且運行時間相當長,

用瀏覽器打開, 那圖片不存在,於是那圖片一直在QUENE當中。

 

接着我分析了一下heritrix 中代碼:

 

workQueneFrontier 有下面代碼, 由於圖片不存在會進入needsRetrying代碼塊中。

Java代碼  收藏代碼
  1. if (needsRetrying(curi)) {  
  2.     // Consider errors which can be retried, leaving uri atop queue  
  3.     if(curi.getFetchStatus()!=S_DEFERRED) {  
  4.         wq.expend(curi.getHolderCost()); // all retries but DEFERRED cost  
  5.     }  
  6.     long delay_sec = retryDelayFor(curi);  
  7.     curi.processingCleanup(); // lose state that shouldn't burden retry  
  8.   
  9.         wq.unpeek(curi);  
  10.         // TODO: consider if this should happen automatically inside unpeek()  
  11.         wq.update(this, curi); // rewrite any changes  
  12.         if (delay_sec > 0) {  
  13.             long delay_ms = delay_sec * 1000;  
  14.             snoozeQueue(wq, now, delay_ms);  
  15.         } else {  
  16.             reenqueueQueue(wq);  
  17.         }  
  18.   
  19.     // Let everyone interested know that it will be retried.  
  20.     appCtx.publishEvent(  
  21.         new CrawlURIDispositionEvent(this,curi,DEFERRED_FOR_RETRY));  
  22.     doJournalRescheduled(curi);  
  23.     return;  
  24. }  

 

 

 

 retryDelayFor方法是用來抓取失敗, 計算等待的時間, 代碼於如下

 

Java代碼  收藏代碼
  1. /** 
  2.  * Return a suitable value to wait before retrying the given URI. 
  3.  *  
  4.  * @param curi 
  5.  *            CrawlURI to be retried 
  6.  * @return millisecond delay before retry 
  7.  */  
  8. protected long retryDelayFor(CrawlURI curi) {  
  9.     int status = curi.getFetchStatus();  
  10.     return (status == S_CONNECT_FAILED || status == S_CONNECT_LOST ||  
  11.             status == S_DOMAIN_UNRESOLVABLE)? getRetryDelaySeconds() : 0;  
  12.             // no delay for most  
  13. }  
  14.   
  15. public int getRetryDelaySeconds() {  
  16.     return (Integer) kp.get("retryDelaySeconds");  
  17. }  

 

由於heritrix 默認是等待900秒, 也就是15分鐘, 如果抓取失敗一個小時也只能運行4次, 8 個小時也就是32次, 難怪一直在運行啊

 

Java代碼  收藏代碼
  1. /** for retryable problems, seconds to wait before a retry */  
  2.   {  
  3.       setRetryDelaySeconds(900);  
  4.   }  

 知道原因後就好辦了, 修改一下配置文件:

 

Xml代碼  收藏代碼
  1. <!-- FRONTIER: Record of all URIs discovered and queued-for-collection -->  
  2. <bean id="frontier"   
  3.   class="org.archive.crawler.frontier.BdbFrontier">  
  4.  <!-- <property name="holdQueues" value="true" /> -->  
  5.  <!-- <property name="queueTotalBudget" value="-1" /> -->  
  6.  <!-- <property name="balanceReplenishAmount" value="3000" /> -->  
  7.  <!-- <property name="errorPenaltyAmount" value="100" /> -->  
  8.  <!-- <property name="precedenceFloor" value="255" /> -->  
  9.  <!-- <property name="queuePrecedencePolicy">  
  10.        <bean class="org.archive.crawler.frontier.precedence.BaseQueuePrecedencePolicy" />  
  11.       </property> -->  
  12.  <!-- <property name="snoozeLongMs" value="300000" /> -->  
  13.   <property name="retryDelaySeconds" value="90" />   
  14.  <!-- <property name="maxRetries" value="30" /> -->  
  15.  <!-- <property name="recoveryDir" value="logs" /> -->  
  16.  <!-- <property name="recoveryLogEnabled" value="true" /> -->  
  17.  <!-- <property name="maxOutlinks" value="6000" /> -->  
  18.  <!-- <property name="outboundQueueCapacity" value="50" /> -->  
  19.  <!-- <property name="inboundQueueMultiple" value="3" /> -->  
  20.  <!-- <property name="dumpPendingAtClose" value="false" /> -->  
  21. </bean>  

 

這是heritrix3的配置, 把時間改成90秒, 也就是隻等待1分半鐘,

如果是H1的配置, 那可以用管理界面進行配置。

改了一下速度一下提高了很多, 原來8小時才能爬完一個網站, 現在2個小時就行了。

如果再用一下heritrix

增量抓取, 那下次再抓取這個網站時, 速度又會增加很多。這樣問題解決了

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章