发帖 回复
返回列表
  • 3091阅读
  • 10回复

robots.txt的解释 [复制链接]

上一主题 下一主题
 
发帖
2396
馒头
2564
包子
9
注册时间
2007-11-19
最后登录
2012-05-04
只看楼主 正序阅读 0 发表于: 2007-12-16
怎么写robots.txt文件?
robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。
在文件的第一行写:
User-Agent: YodaoBot
这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫。您还可以写:
User-Agent: *
这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。
接下来是不希望被访问的链接前缀。例如:
Disallow: /private
这就告诉爬虫不要抓取以"/private"开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:
Disallow: /
则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:
Disallow: /tmp
Disallow: /disallow
那么所有以"/tmp"和"/disallow"开头的链接都不会被访问了。

最后形成的robots.txt文件如下:
User-Agent: YodaoBot
Disallow: /tmp
Disallow: /private

请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。
1条评分
libby 馒头  谢谢分享 2007-12-16
发帖
57
馒头
126
包子
0
注册时间
2007-11-26
最后登录
2011-06-22
只看该作者 10 发表于: 2007-12-20
也研究过一段时间,很是不错!!!
发帖
807
馒头
802
包子
0
注册时间
2007-10-04
最后登录
2009-05-21
只看该作者 9 发表于: 2007-12-19
学习中!谢谢了
来自:yb4321.cn      5339252.cn
发帖
398
馒头
349
包子
0
注册时间
2007-12-14
最后登录
2008-08-16
只看该作者 8 发表于: 2007-12-19
好象是GOOGLE帐户里的吧,我的GOOGLE帐户里就有robots.txt文件

发帖
2396
馒头
2564
包子
9
注册时间
2007-11-19
最后登录
2012-05-04
只看该作者 7 发表于: 2007-12-19
嘿嘿 美女大MM
发帖
34
馒头
108
包子
0
注册时间
2007-12-07
最后登录
2009-10-05
只看该作者 6 发表于: 2007-12-19
Robots.txt 文件书写错误的检查工具

http://www.pageseo.com/seo-tools/Robots-Spider.php
发帖
3
馒头
281
包子
0
注册时间
2007-08-25
最后登录
2009-04-06
只看该作者 5 发表于: 2007-12-17
学习
发帖
1469
馒头
488
包子
1
注册时间
2007-10-04
最后登录
2011-04-23
只看该作者 4 发表于: 2007-12-17
不错,支持一下
呵呵
发帖
92
馒头
46659
包子
0
注册时间
2007-08-23
最后登录
2011-08-04
只看该作者 3 发表于: 2007-12-17
该写的语句是


网站重地,蜘蛛止步。

它就不会来了
发帖
802
馒头
1169
包子
1
注册时间
2007-08-26
最后登录
2012-05-21
只看该作者 2 发表于: 2007-12-17
好萜
发帖
3190
馒头
366
包子
0
注册时间
2007-09-29
最后登录
2012-05-11
只看该作者 1 发表于: 2007-12-16
学习................
发帖 回复
返回列表