您的位置 首页 SEO优化

Robots文件协议怎么书写?

什么是robots? robots是网站与spider沟通的主要方式,网站根据robots文件申明该平台中不愿…

什么是robots?

robots是网站与spider沟通的主要方式,网站根据robots文件申明该平台中不愿被搜索引擎百度收录的一部分或是特定搜索引擎只百度收录特殊的一部分。

robots文件格式

User-agent:用以叙述搜索引擎robot的名称。

Disallow:用以叙述不期望被访问的一组URL,这一值还可以是一条详细的路径,还可以是路径的非前所未有缀。

Allow:用以叙述期待被访问的一组URL,与Disallow项类似,这一值还可以是一条详细的路径,还可以是路径的作为前缀。

独特使用通配符

"*"配对0或好几个随意标识符

"$"配对行结束符。

"?"配对动态性路径

常见蜘蛛

百度爬虫:Baiduspider

谷歌机器人:Googlebot

360好搜:360spider

SOSO搜索引擎蜘蛛:Sosospider

有道在线搜索引擎蜘蛛:YoudaoBot

bing搜索搜索引擎蜘蛛:bingbot

robots的使用方法举例说明

1.屏蔽全部搜索引擎

User-agent:*

Disallow:/

留意:英文冒号后边随后务必是一个英文格式的“空格符”。

2.屏蔽百度搜索蛛蛛,容许其他蛛蛛

User-agent:Baiduspider

Disallow:/

User-agent:*

3.屏蔽一个文件夹

User-agent:*

Disallow:/data/

4.屏蔽一个文件夹,但容许访问此文件夹中的某些文档

User-agent:*

Disallow:/data/

Allow:/data/abc.php

5.屏蔽文件夹时后边带"/"与没有"/"的差别

比如"Disallow:/data"是严禁robot访问/data.html、/dataxxx.html、/data/xxx.html,

而"Disallow:/data/"则严禁robot访问/data/xxx.html、/data/xxx/,而容许访问/data.html、/dataxxx.html文档。

PS:Allow是一样的大道理。

6.屏蔽动态性路径

User-agent:*

Disallow:/*?*

7.特定蛛蛛抓取路径以.html末尾,后边全部路径都不会再爬取

User-agent:*

Disallow:/*.html$

8.各自界定百度搜索蛛蛛,和Google蛛蛛

User-agent:Baiduspider

Disallow:/data/

User-agent:Googlebot

Disallow:/template/

谭说Amazon

作者: Keither

返回顶部