robots.txt - 六维空间

一、为什么要写robots.txt文件，它的作用是什么？

搜索引擎通过一种爬虫spider程序（又称搜索蜘蛛、robot、搜索机器人等），自动搜集互联网上的网页并获取相关信息，每个网站都可以自主控制网站是否愿意被搜索引擎收录，或者指定搜索引擎只收录指定的内容。

robots.txt文件就是用来告诉蜘蛛程序在服务器上什么文件是可以被查看的，因此，当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围 (即允许/禁止访问那些页面)；如果该文件不存在，则默认允许搜索蜘蛛能够访问该网站的所有页面。

二、网站为什么要写robots.txt？

1、保护网站安全

2、节省流量

3、禁止搜索引擎收录部分页面

4、引导蜘蛛爬网站地图

三、基本的 robots.txt 写法规则

1、定义搜索引擎

用User-agent:来定义搜索引擎，其中*表示所有，Baiduspider表示百度蜘蛛，Googlebot表示谷歌蜘蛛。也就是说User-agent: *表示定义所有蜘蛛，User-agent: Baiduspider表示定义百度蜘蛛。

2、禁止与允许访问

Disallow: /表示禁止访问，Allow: /表示允许访问。

在写robots.txt时需特别注意的是，/前面有一个英文状态下的空格（必须是英文状态下的空格）。

3、禁止搜索引擎访问网站中的某几个文件夹，以a、b、c为例，写法分别如下：

Disallow: /a/
Disallow: /b/
Disallow: /c/

4、禁止搜索引擎访问文件夹中的某一类文件，以a文件夹中的js文件为例，写法如下：

Disallow: /a/*.js

5、只允许某个搜索引擎访问，以Baiduspider为例，写法如下：

User-agent: Baiduspider
Disallow:

6、只允许搜索引擎访问某类文件，以htm为例，写法如下：

User-agent: *
Allow: .html$
Disallow: /

7、禁止某个搜索引擎抓取网站上的所有图片，以Baiduspider为例，写法如下：

User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

四、注意事项

1、robots.txt文件存放在网站根目录下，并且文件名所有字母都必须小写。

2、robots.txt文件生效时间在几天至一个月之间，站长自身无法控制。但是，站长可以在各站长平台中查看网站robots.txt文件是否生效，也可以手动更新。