飞鱼博客

首页 > 8 其它知识 > 学习robots.txt

学习robots.txt

2010年4月15日 AEROFISH 1,390 views 发表评论阅读评论

使用robots.txt是网站SEO的一种很好的方法。其是给搜索引擎蜘蛛机器人看的规范文件，包括Google、百度等大多数搜索引擎都认识它。

robots.txt的作用是，告诉搜索引擎哪些可以抓取，哪些不可以抓取。它必须放在网站的根目录中，已robots.txt命名。

robots.txt的内容格式非常简单，只有3个命令：

User-agent: *
Allow: /
Disallow: /

注意首字母要大写。

其中：

User-agent:－－后面加搜索蜘蛛机器人的名字，"*"表示所有蜘蛛人，Google的是"Googlebot"，百度的是"Baiduspider"；

Allow:－－表示允许，"/"表示目录，"Allow: /"表示允许所有目录能被抓取；

Disallow:－－表示不允许，"Disallow: /"表示禁止所有目录被抓取，如果不加"/"，只用"Disallow:"，等效于"Allow: /"；

以下是我的博客的robots.txt，供大家参考：

User-agent: *
Disallow: /index.php/feed
Disallow: /index.php/comments/feed
Disallow: /wp-

User-agent: Baiduspider
Disallow: /index.php/archives/date/
Disallow: /index.php/archives/tag/
Disallow: /index.php/archives/category/
Disallow: /index.php/page/
Disallow: /?
Disallow: /index.php/?

这里我我基本只对百度进行限制，只让其抓取文章页，因为我一直认为百度不够智能，所有我帮它指引下抓取方向。

另外还有一些注意事项：

结尾的"/"加与不加是有区别的，如果加"/"就表示指定了目录，如果不加"/"表示是一个目录的前缀；
可以使用"*"作为通配符；
可以使用".扩展名"+"&"来表示某一类文件，如"Disallow: *.php&"表示禁止抓取所有php文件；
robots.txt文件目前好像还无法做到不抓取首页。

最后，如果你想学习下别人的robots.txt是怎么弄的，可以在地址栏输入"对方的首页地址/robots.txt"来显示，比如：

Google－－www.google.com/robots.txt；

百　度－－www.baidu.com/robots.txt；

淘宝网－－www.taobao.com/robots.txt。

这里淘宝网主网站的robots.txt比较有意思，竟然是禁止百度访问所有目录，不知道淘宝葫芦里卖的是什么药。

附录：访问我博客的所有蜘蛛（有些都不知道是什么，都是我网站的后台统计的）：

googlebot
slurp
baiduspider
feedburner
yahoo!\sslurp\schina
wordpress
spider
java
nutch
commons\-httpclient
ia_archiver
robot
larbin
\wbot[\/\-]
msnbot\-media
crawl

有知道的朋友告诉我下，先谢了！