網絡流行(待續)

1、搜索引擎基本技術

網絡蜘蛛 網絡蜘蛛(Spider)又被稱作網絡機器人(Robot),或者Crawler,它的主要目的是爲獲取互聯網上的信息。網絡蜘蛛利用主頁中的超文本鏈接遍歷Web,通過URL引用從一個HTML文檔爬行到另一個HTML文檔。http://dmoz.org是整個互聯網抓取的入口。網絡蜘蛛收集信息可有多種用途,如建立索引、HTML文件的驗證、URL鏈接驗證、獲取更新信息、站點鏡像等。網絡蜘蛛建立的頁面數據庫包含根據頁面內容生成的文摘,這是一個重要特色。

    在抓取網頁時,大部分網絡機器人會遵循Robot.txt協議。

網站本身可以聲明不想被搜索引擎收入的內容。可以有兩種實現方式:第一種方式是在你的站點上增加一個純文本文件http://www.yourdomain.com/robots.txt;另外一種方式是直接在HTML頁面中使用robots的meta標籤。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章