RSS網絡爬蟲的時間規則

RSS網絡爬蟲的時間規則<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

 

整理:Ackarlix

挨踢網【中文IT技術社區】http://www.aitic.net

 

RSS的網絡爬蟲的時間規則的設置:

 

設定RSS爬蟲重新訪問的5個級別:

 

Level[1]=20 Minutes

Level[2]=200 Minutes

Level[3]=1000 Minutes

Level[4]=2000 Minutes

Level[5]=10000 Minutes

 

設定RSS 源的權重爲從0到5

 

RssRank=0 ~ 5

 

要點:

1.每一個RSS 源對應一個時間T[i],這個時間取整就得到 Level 。例如,這個時間是250分鐘,那麼就取Level[2],就是每隔200分鐘抓取一次。

2.每一次這個對應時間都是改變的,根據這個RSS源有沒有變化。

3.當更新了,這個時間就除以1.2 ,當未更新,這個時間就乘以1.2

4.RssRank起到調整更新時間級別的規則。例如當一個RSSLevel[5],但是它的RssRank3,那麼更新時間調整爲Level[5-3] = Level[2] = 200分鐘。

 

總體公式:

 

T[i+1] = T[i] [*(1.2)/(1.2)]

T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]

 

經過長時間的運行,T序列都變動非常穩定。

 

另外,替朋友招聘〔垂直搜索〕開發人員。有興趣請發簡歷給我。luliang#bokee.com ,另外今天晚上的搜索引擎沙龍討論的主題是垂直搜索。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章