手動建 robots.txt

  最簡單的 robots.txt 文件使用兩條規則:

  User-agent:應用以下規則的漫遊器

  Disallow:要攔截的網址

  這兩行會視爲文件中的一個條目。您可根據需要加入任意多個條目。您可在一個條目中加入多個 Disallow 行和多個 User-agent。

  robots.txt 文件的各個部分都是獨立的,而不是在先前部分的基礎上構建的。例如:

  User-agent: *

  Disallow: /文件夾 1/User-Agent: Googlebot

  Disallow: /文件夾 2/

  在本例中,只有符合 /文件夾 2/ 的網址纔會被 Googlebot 禁止。

  User-agent 和漫遊器

  User-agent 是一種特定的搜索引擎漫遊器。網絡漫遊器數據庫列出了許多常用的漫遊器。您可以將某一條目設置爲適用於某一特定漫遊器(以顯示名稱的方式列出)或適用於所有漫遊器(以標記爲星號的方式列出)。適用於所有漫遊器的條目應爲以下格式:

  User-agent: *

  Google 使用多種不同的漫遊器 (User-agent)。我們的網頁搜索所使用的漫遊器爲 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫遊器也會遵循您爲 Googlebot 所設置的規則,但您也可以爲這些特定的漫遊器設置特定的規則。

  攔截 User-agent

  Disallow 行列出的是您要攔截的網頁。您可以列出某一特定的網址或模式。條目應以正斜線 (/) 開頭。

  要攔截整個網站,請使用正斜線。 Disallow: /

  [*]要攔截某一目錄以及其中的所有內容,請在目錄名後添加正斜線。 Disallow: /無用目錄/

  [*]要攔截某個網頁,請列出該網頁。 Disallow: /私人文件.html

  [*]要從 Google 圖片中刪除特定圖片,請添加以下內容: User-agent: Googlebot-Image

  Disallow: /images/狗.jpg

  [*]要從 Goo le 圖片中 除您網站上的所有圖片,請執行以下指令: User-agent: Googlebot-Image

  Disallow: /

  [*]要攔截某一特定文件類型的文件(例如 .gif),請使用以下內容: User-agent: Googlebot

  Disallow: /*.gif$

  [*]要阻止抓取您網站上的網頁,而同時又能在這些網頁上顯示 Adsense 廣告,請禁止除 Mediapartners-Google 以外的所有漫遊器。這樣可使網頁不出現在搜索結果中,同時又能讓 Mediapartners-Google 漫遊器分析網頁,從而確定要展示的廣告。Mediapartners-Google 漫遊器不與其他 Google User-agent 共享網頁。例如: User-agent: *

  Disallow: /

  User-agent: Mediapartners-Google

  Allow: /

  請注意,指令區分大小寫。例如,Disallow: /junk_file.asp

  會攔截 http://www.example.com/junk_file.asp,卻會允許 http://www.example.com/Junk_file.asp。Googlebot 會忽略 robots.txt 中的空白內容(特別是空行)和未知指令。Googlebot 支持通過 robots.txt 文件提交站點地圖文件。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章