RSS網絡爬蟲的時間規則<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
整理:Ackarlix
挨踢網【中文IT技術社區】http://www.aitic.net
RSS的網絡爬蟲的時間規則的設置:
設定RSS爬蟲重新訪問的5個級別:
Level[1]=20 Minutes
Level[2]=200 Minutes
Level[3]=1000 Minutes
Level[4]=2000 Minutes
Level[5]=10000 Minutes
設定RSS 源的權重爲從0到5
RssRank=0 ~ 5
要點:
1.每一個RSS 源對應一個時間T[i],這個時間取整就得到 Level 。例如,這個時間是250分鐘,那麼就取Level[2],就是每隔200分鐘抓取一次。
2.每一次這個對應時間都是改變的,根據這個RSS源有沒有變化。
3.當更新了,這個時間就除以1.2 ,當未更新,這個時間就乘以1.2。
4.RssRank起到調整更新時間級別的規則。例如當一個RSS在Level[5],但是它的RssRank是3,那麼更新時間調整爲Level[5-3] = Level[2] = 200分鐘。
總體公式:
T[i+1] = T[i] [*(1.2)/(1.2)]
T = Level[ AntiLevel[T[i][(1.2)|/(1.2)]] - RssRank]
經過長時間的運行,T序列都變動非常穩定。
另外,替朋友招聘〔垂直搜索〕開發人員。有興趣請發簡歷給我。luliang#bokee.com ,另外今天晚上的搜索引擎沙龍討論的主題是垂直搜索。