原创 我的友情鏈接

51CTO博客開發

原创 【轉載】heritrix抓取網頁信息

  [wbia 1]表示web based information architecture作業1的第1部分,搜索到這篇日誌的讀者可以直接忽略之。 我對heritrix的瞭解較淺,希望此文對第一次用爬蟲的程序猿有幫助。如果有什麼錯誤請直

原创 Heritrix配置——限定爬取範圍爲某一特定網站

    記錄一下利用Heritrix爬取特定網站範圍內的網頁的配置過程,以便以後參考。 以新浪爲例,我們希望將爬蟲爬取的範圍限定在新浪之內,而不去爬取在來自於其他網站的URL。 首先,我們需要設定爬取的種子鏈接。在此需要注意,種子鏈接需要設

原创 我的友情鏈接

51CTO博客開發

原创 Heritrix提高抓取效率的若干嘗試

轉載自:http://blog.sina.com.cn/s/blog_6cc084c90100nf39.html  前段忙於其他的功課,精力沒有放在這邊,這星期把重心移回到Heritrix上,做了幾個提高Heritrix抓取效率的嘗試,所

原创 SQL連接查詢【轉載】

  SQL連接查詢知識 深入閱讀http://wenku.baidu.com/view/58c119cc050876323112127d.html 一、交叉連接(CROSS JOIN)交叉連接(CROSS JOIN):有兩種,顯式的