搜索引擎优化-排除重复内容

1.使用Robots meta标签

使用robots meta标签,就可以从网站中以网页为基础排除基于HTML的内容。为了用meta来排除页面,只需简单地将以下代码插入到要排除的HTML文档的<head>节

<meta name="robots" content="noindex,nofollow" />

这就表明页面不能被索引,并且页面的链接不能被跟随。

2.robots.txt模式排除

meta标签有技术限制,必须对应用程序源代码修改,而且只能用HTML。

robots.txt是位于网站根目录下的文本文件,并符合robots.txt标准。3个基本概念:

(1)只能有一个robots.txt

(2)robots.txt应放在web站点的根目录下

(3)位于子目录下的robots.txt无效果

下面位于站点根文件夹下的robots.txt文件示例,不允许任何robots(*)访问站点的文件:

User-agent:*

Disallow:/

以下示例不允许任何以“/directory”开头的URL地址被Google索引(googlebot是谷歌的用户代理名):

User-agent:googlebot

Disallow:/directory

如果只希望directory文件夹下的内容被排除,/directory/

如果想要googlebot排除X,Y,Z,应该这样写:

User-agent:*

Disallow:X

Disallow:Y

User-agent:googlebot

Disallow:X

Disallow:Y

Disallow:Z

只允许google来检索站点:

User-agent:googlebot

Disallow:


User-agent:*

Disallow:/


3.实时生成robots.txt

web开发人员可以实时动态地程序化生成robots.txt文件。在.htaccess中包括以下规则,能够把robots.php映射成robots.txt,并使用脚本robots.php来生成后者。

.htaccess里的以下规则,将对robots.txt的请求重写到robots.php:

RewriteEngine On

RewriteRule ^robots.txt$ /robots.php

robots.php文件:

<?

header('Content-type:text/plain');

...

...

?>

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章