详解如何写好robots.txt

浏览次数:0 发布时间:2021-02-24 关键词: robots 网站 文件 https 规则 详解

robots.txt简介

robots.txt位于网站的根目录下,当spider访问一个网站(例:南通网站建设 https://www.ansu.xin/)时候,首先会检查该网站中是否存在https://www.ansu.xin/robots.txt这个文件,如果存在就会遵循robots.txt的规则去爬行网站。

robots.txt对于任何一个做网站的人应该都不陌生,它只是一个纯文本文件,但是却可以限制搜索引擎蜘蛛对网站的爬行,下面具体介绍一下robots.txt。

robots.txt写法

注:robots.txt区分大小写,如php.html和PHP.html会被识别为不同的文件,书写robots.txt时所有字符均为英文半角。

1、例子

User-agent: Baiduspider

Disallow: /

这是拒绝百度蜘蛛访问的写法。

2、User-agent

User-agent表示搜索引擎robot的名字,书写robots.txt必须有User-agent

User-agent:*

表示所有的robot

User-agent:Baiduapider

表示百度spider

3、Disallow

Disallow表示不允许访问

Disallow:

不允许访问为空,表示允许访问任何目录

Disallow: /

表示不允许访问任何目录,注:在/前有一个空格

4、Allow

Allow表示允许访问,意思和用法与Disallow相反,在此不再过多叙述。

timg.jpg

具体用法举例

1、允许所有蜘蛛访问所有目录

User-Agent: *

Allow: /

2、禁止所有蜘蛛访问

User-Agent: *

Disallow: /

3、允许所有蜘蛛访问某个目录

User-Agent: *

Allow: /php/

4、禁止蜘蛛访问某几个目录

User-Agent: *

Disallow: /php/

Disallow: /java/

5、禁止蜘蛛访问动态页面

User-Agent: *

Disallow: /*?*

sitemap索引在robots.txt的位置

      sitamap索引的位置 好放在robots.txt的 下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。

Sitemap: https://www.ansu.xin/sitemap.xml
Sitemap: https://www.ansu.xin/sitemap.html