手动建 robots.txt

  最简单的 robots.txt 文件使用两条规则:

  User-agent:应用以下规则的漫游器

  Disallow:要拦截的网址

  这两行会视为文件中的一个条目。您可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。

  robots.txt 文件的各个部分都是独立的,而不是在先前部分的基础上构建的。例如:

  User-agent: *

  Disallow: /文件夹 1/User-Agent: Googlebot

  Disallow: /文件夹 2/

  在本例中,只有符合 /文件夹 2/ 的网址才会被 Googlebot 禁止。

  User-agent 和漫游器

  User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为适用于某一特定漫游器(以显示名称的方式列出)或适用于所有漫游器(以标记为星号的方式列出)。适用于所有漫游器的条目应为以下格式:

  User-agent: *

  Google 使用多种不同的漫游器 (User-agent)。我们的网页搜索所使用的漫游器为 Googlebot。Googlebot-Mobile 和 Googlebot-Image 等其他漫游器也会遵循您为 Googlebot 所设置的规则,但您也可以为这些特定的漫游器设置特定的规则。

  拦截 User-agent

  Disallow 行列出的是您要拦截的网页。您可以列出某一特定的网址或模式。条目应以正斜线 (/) 开头。

  要拦截整个网站,请使用正斜线。 Disallow: /

  [*]要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。 Disallow: /无用目录/

  [*]要拦截某个网页,请列出该网页。 Disallow: /私人文件.html

  [*]要从 Google 图片中删除特定图片,请添加以下内容: User-agent: Googlebot-Image

  Disallow: /images/狗.jpg

  [*]要从 Goo le 图片中 除您网站上的所有图片,请执行以下指令: User-agent: Googlebot-Image

  Disallow: /

  [*]要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容: User-agent: Googlebot

  Disallow: /*.gif$

  [*]要阻止抓取您网站上的网页,而同时又能在这些网页上显示 Adsense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析网页,从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如: User-agent: *

  Disallow: /

  User-agent: Mediapartners-Google

  Allow: /

  请注意,指令区分大小写。例如,Disallow: /junk_file.asp

  会拦截 http://www.example.com/junk_file.asp,却会允许 http://www.example.com/Junk_file.asp。Googlebot 会忽略 robots.txt 中的空白内容(特别是空行)和未知指令。Googlebot 支持通过 robots.txt 文件提交站点地图文件。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章