狂淘

www.kuangtao.net

:: 首页 :: 新随笔 :: 联系 :: 聚合

:: 管理 ::

6 随笔 :: 185 文章 :: 68 评论 :: 0 Trackbacks

robots.txt用法和seo作用-Googlebot/Baiduspider

通过给网站设置适当的robots.txt对Google和百度seo优化的作用是很明显的。WordPress博客网站也一样。

我们先看看robots.txt是什么，有什么作用？

robots.txt是什么？

我们都知道txt后缀的文件是纯文本文档，robots是机器人的意思，所以顾名思义，robots.txt文件也就是给搜索引擎蜘蛛这个机器人看的纯文本文件。robots.txt是搜索引擎公认遵循的一个规范文档，它告诉Google、百度等搜索引擎哪些网页允许抓取、索引并在搜索结果中显示，哪些网页是被禁止收录的。搜索引擎蜘蛛 spider（Googlebot/Baiduspider）来访问你的网站页面的时候，首先会查看你的网站根目录下是否有robots.txt文件，如果有则按照里面设置的规则权限对你网站页面进行抓取和索引。如淘宝网就通过设置robots.txt屏蔽百度搜索引擎：

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

robots.txt的作用

我们了解了什么是robots.txt，那它有什么作用，总体来说，robots.txt文件至少有下面两方面的作用：

1、通过设置屏蔽搜索引擎访问不必要被收录的网站页面，可以大大减少因spider抓取页面所占用的网站带宽，小网站不明显，大型网站就很明显了。

2、设置robots.txt可以指定google或百度不去索引哪些网址，比如我们通过url重写将动态网址静态化为永久固定链接之后，就可以通过robots.txt设置权限，阻止Google或百度等搜索引擎索引那些动态网址，从而大大减少了网站重复页面，对SEO优化起到了很明显的作用。

robots.txt的写法

关于如何写robots.txt文件，在下面我们会以WordPress博客来作更具体举例说明。这里先提示几点robots.txt写法中应该注意的地方。如robots.txt文件里写入以下代码：

User-agent: *
Disallow:
Allow: /

robots.txt必须上传到你的网站根名录下，在子目录下无效；

robots.txt，Disallow等必须注意大小写，不能变化；

User-agent，Disallow等后面的冒号必须是英文状态下的，冒号后面可以空一格，也可以不空格。网上有人说冒号后面必须有空格，其实没有也是可以的，请看谷歌中文网站管理员博客的设置就是这样：http://www.googlechinawebmaster.com/robots.txt ；

User-agent表示搜索引擎spider：星号“*”代表所有spider，Google的spider是“Googlebot”，百度是“Baiduspider”；

Disallow:表示不允许搜索引擎访问和索引的目录；

Allow:指明允许spider访问和索引的目录，Allow: / 表示允许所有，和Disallow: 等效。

robots.txt文件写法举例说明

禁止Google/百度等所有搜索引擎访问整个网站

User-agent: *
Disallow: /

允许所有的搜索引擎spider访问整个网站(Disallow:可以用Allow: /替代)

User-agent: *
Disallow:

禁止Baiduspider访问您的网站，Google等其他搜索引擎不阻止

User-agent: Baiduspider
Disallow: /

只允许Google spider： Googlebot访问您的网站，禁止百度等其他搜索引擎

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

禁止搜索引擎蜘蛛spider访问指定目录
　　(spider不访问这几个目录。每个目录要分开声明，不能合在一起)

User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /~jjjj/

禁止搜索引擎spider访问指定目录，但允许访问该指定目录的某个子目录

User-agent: *
Allow: /admin/far
Disallow: /admin/

使用通配符星号"*"设置禁止访问的url
　　 (禁止所有搜索引擎抓取/cgi-bin/目录下的所有以".html"格式的网页(包含子目录))

User-agent: *
Disallow: /cgi-bin/*.html

使用美元符号"$"设置禁止访问某一后缀的文件
　　 (只允许访问以".html"格式的网页文件。)

User-agent: *
Allow: .html$
Disallow: /

阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面

User-agent: *
Disallow: /*?*

阻止Google spider：Googlebot访问网站上某种格式的图片
　　(禁止访问.jpg 格式的图片)

User-agent: Googlebot
Disallow: .jpg$

只允许Google spider：Googlebot抓取网页和.gif格式图片
　　 (Googlebot只能抓取gif格式的图片和网页，其他格式的图片被禁止；
其他搜索引擎未设置)

User-agent: Googlebot
Allow: .gif$
Disallow: .jpg$
.......

只禁止Google spider：Googlebot抓取.jpg格式图片
(其他搜索引擎和其他格式图片没有禁止)

User-agent: Googlebot
Disallow: .jpg$

www.kuangtao.net 淘宝网首页

posted on 2010-05-28 22:11 狂淘阅读(314) 评论(1) 编辑收藏所属分类: SEO

# re: robots.txt用法和seo作用-Googlebot/Baiduspider 2010-07-03 11:03 深圳酒店预订网

学习了！！！回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 影响网站排名的49因素如何设置更好，更方便的首选域？ .htaccess使用指南 robots.txt用法和seo作用-Googlebot/Baiduspider 如何查看网站被百度抓取的情况？日志中的HTTP状态码都代表什么？如何使用标签阻止网页被收录？如何使用robots不让百度和google收录网站地图提交如何生成标准的网站地图

狂淘

公告

留言簿(1)

随笔分类(5)

随笔档案(6)

文章分类(181)

文章档案(183)

相册

QQ客服

博客

狂淘网

最新随笔

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

评论

禁止Google/百度等所有搜索引擎访问整个网站	User-agent: * Disallow: /
允许所有的搜索引擎spider访问整个网站(Disallow:可以用Allow: /替代)	User-agent: * Disallow:
禁止Baiduspider访问您的网站，Google等其他搜索引擎不阻止	User-agent: Baiduspider Disallow: /
只允许Google spider： Googlebot访问您的网站，禁止百度等其他搜索引擎	User-agent: Googlebot Disallow: User-agent: * Disallow: /
禁止搜索引擎蜘蛛spider访问指定目录　　(spider不访问这几个目录。每个目录要分开声明，不能合在一起)	User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /~jjjj/
禁止搜索引擎spider访问指定目录，但允许访问该指定目录的某个子目录	User-agent: * Allow: /admin/far Disallow: /admin/
使用通配符星号"*"设置禁止访问的url 　　 (禁止所有搜索引擎抓取/cgi-bin/目录下的所有以".html"格式的网页(包含子目录))	User-agent: * Disallow: /cgi-bin/*.html
使用美元符号"$"设置禁止访问某一后缀的文件　　 (只允许访问以".html"格式的网页文件。)	User-agent: * Allow: .html$ Disallow: /
阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面	User-agent: * Disallow: /?
阻止Google spider：Googlebot访问网站上某种格式的图片　　(禁止访问.jpg 格式的图片)	User-agent: Googlebot Disallow: .jpg$
只允许Google spider：Googlebot抓取网页和.gif格式图片　　 (Googlebot只能抓取gif格式的图片和网页，其他格式的图片被禁止；其他搜索引擎未设置)	User-agent: Googlebot Allow: .gif$ Disallow: .jpg$ .......
只禁止Google spider：Googlebot抓取.jpg格式图片 (其他搜索引擎和其他格式图片没有禁止)	User-agent: Googlebot Disallow: .jpg$