学习robots.txt
使用robots.txt是网站SEO的一种很好的方法。其是给搜索引擎蜘蛛机器人看的规范文件,包括Google、百度等大多数搜索引擎都认识它。
robots.txt的作用是,告诉搜索引擎哪些可以抓取,哪些不可以抓取。它必须放在网站的根目录中,已robots.txt命名。
robots.txt的内容格式非常简单,只有3个命令:
User-agent: *
Allow: /
Disallow: /
注意首字母要大写。
其中:
User-agent:--后面加搜索蜘蛛机器人的名字,"*"表示所有蜘蛛人,Google的是"Googlebot",百度的是"Baiduspider";
Allow:--表示允许,"/"表示目录,"Allow: /"表示允许所有目录能被抓取;
Disallow:--表示不允许,"Disallow: /"表示禁止所有目录被抓取,如果不加"/",只用"Disallow:",等效于"Allow: /";
以下是我的博客的robots.txt,供大家参考:
User-agent: *
Disallow: /index.php/feed
Disallow: /index.php/comments/feed
Disallow: /wp-User-agent: Baiduspider
Disallow: /index.php/archives/date/
Disallow: /index.php/archives/tag/
Disallow: /index.php/archives/category/
Disallow: /index.php/page/
Disallow: /?
Disallow: /index.php/?
这里我我基本只对百度进行限制,只让其抓取文章页,因为我一直认为百度不够智能,所有我帮它指引下抓取方向。
另外还有一些注意事项:
- 结尾的"/"加与不加是有区别的,如果加"/"就表示指定了目录,如果不加"/"表示是一个目录的前缀;
- 可以使用"*"作为通配符;
- 可以使用".扩展名"+"&"来表示某一类文件,如"Disallow: *.php&"表示禁止抓取所有php文件;
- robots.txt文件目前好像还无法做到不抓取首页。
最后,如果你想学习下别人的robots.txt是怎么弄的,可以在地址栏输入"对方的首页地址/robots.txt"来显示,比如:
Google--www.google.com/robots.txt;
百 度--www.baidu.com/robots.txt;
淘宝网--www.taobao.com/robots.txt。
这里淘宝网主网站的robots.txt比较有意思,竟然是禁止百度访问所有目录,不知道淘宝葫芦里卖的是什么药。
附录:访问我博客的所有蜘蛛(有些都不知道是什么,都是我网站的后台统计的):
googlebot
slurp
baiduspider
feedburner
yahoo!\sslurp\schina
wordpress
spider
java
nutch
commons\-httpclient
ia_archiver
robot
larbin
\wbot[\/\-]
msnbot\-media
crawl
有知道的朋友告诉我下,先谢了!
最新评论