首页 > 8 其它知识 > 学习robots.txt

学习robots.txt

2010年4月15日 AEROFISH 1,362 views 发表评论 阅读评论

使用robots.txt是网站SEO的一种很好的方法。其是给搜索引擎蜘蛛机器人看的规范文件,包括Google、百度等大多数搜索引擎都认识它。

robots.txt的作用是,告诉搜索引擎哪些可以抓取,哪些不可以抓取。它必须放在网站的根目录中,已robots.txt命名。

robots.txt的内容格式非常简单,只有3个命令:

User-agent: *
Allow: /
Disallow: /

注意首字母要大写。

其中:

User-agent:--后面加搜索蜘蛛机器人的名字,"*"表示所有蜘蛛人,Google的是"Googlebot",百度的是"Baiduspider";

Allow:--表示允许,"/"表示目录,"Allow: /"表示允许所有目录能被抓取;

Disallow:--表示不允许,"Disallow: /"表示禁止所有目录被抓取,如果不加"/",只用"Disallow:",等效于"Allow: /";

以下是我的博客的robots.txt,供大家参考:

User-agent: *
Disallow: /index.php/feed
Disallow: /index.php/comments/feed
Disallow: /wp-

User-agent: Baiduspider
Disallow: /index.php/archives/date/
Disallow: /index.php/archives/tag/
Disallow: /index.php/archives/category/
Disallow: /index.php/page/
Disallow: /?
Disallow: /index.php/?

这里我我基本只对百度进行限制,只让其抓取文章页,因为我一直认为百度不够智能,所有我帮它指引下抓取方向。

另外还有一些注意事项:

  1. 结尾的"/"加与不加是有区别的,如果加"/"就表示指定了目录,如果不加"/"表示是一个目录的前缀;
  2. 可以使用"*"作为通配符;
  3. 可以使用".扩展名"+"&"来表示某一类文件,如"Disallow: *.php&"表示禁止抓取所有php文件;
  4. robots.txt文件目前好像还无法做到不抓取首页。

最后,如果你想学习下别人的robots.txt是怎么弄的,可以在地址栏输入"对方的首页地址/robots.txt"来显示,比如:

Google--www.google.com/robots.txt;

百 度--www.baidu.com/robots.txt;

淘宝网--www.taobao.com/robots.txt。

这里淘宝网主网站的robots.txt比较有意思,竟然是禁止百度访问所有目录,不知道淘宝葫芦里卖的是什么药。


附录:访问我博客的所有蜘蛛(有些都不知道是什么,都是我网站的后台统计的):

googlebot
slurp
baiduspider
feedburner
yahoo!\sslurp\schina
wordpress
spider
java
nutch
commons\-httpclient
ia_archiver
robot
larbin
\wbot[\/\-]
msnbot\-media
crawl

 有知道的朋友告诉我下,先谢了!


本文对我无帮助,减1分本文对我有帮助,加1分 (本文对您有帮助吗?)
Loading ... Loading ...

分类: 8 其它知识 标签: ,
  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.