原创 搜索引擎學習資源收集

spider是搜索引擎的必須模塊.spider數據的結果直接影響到搜索引擎的評價指標. 第一個spider程序由MIT的Matthew K Gray操刀該程序的目的是爲了統計互聯網中主機的數目 Spier定義(關於Spider的定義,有廣

原创 蜘蛛(Spider)

C#特別適合於構造蜘蛛程序,這是因爲它已經內置了HTTP訪問和多線程的能力,而這兩種能力對於蜘蛛程序來說都是非常關鍵的。下面是構造一個蜘蛛程序要解決的關鍵問題:   ⑴ HTML分析:需要某種HTML解析器來分析蜘蛛程序遇到的每一個頁面。

原创 獲取頁面Html代碼,自動識別編碼

  public string GetHtml(string url)         {                 string code = DecodeData(url);                 HttpWebR

原创 php代碼加亮類

php文章以php分界符智能自動匹配高亮顯示作者 qh663 /** 類名 highlight* 功能 1、php文章以分界符智能自動匹配高亮顯示  *             2、符合xhmtl標準,  *             3、支