首页>建站相关>robots.txt文件的格式与示例

robots.txt文件的格式与示例

robots.txt文件的格式

robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

<field>:<optional space><value><optionalspace>

User-agent

在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为,则对任何robot均有效,在”robots.txt”文件中,”User-agent:”这样的记录只能有一条。如果在”robots.txt”文件中,加入”User-agent:SomeBot”和若干Disallow、Allow行,那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow

Disallow:该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html,而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url,在”/robots.txt”文件中,至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow

Allow:该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

通配符

使用“*”和“$”:Baiduspider支持使用通配符“*”和“$”来模糊匹配url。

“*”:匹配0或多个任意字符
“$”:匹配行结束符

几个robots.txt的示例

例1.禁止所有搜索引擎访问网站的任何部分;

User-agent:*
Disallow:/

例2.允许所有的robot访问;

User-agent:*
Allow:/

例3.仅禁止Baiduspider访问您的网站;

User-agent:Baiduspider
Disallow:/

例4.仅允许Baiduspider访问您的网站;

User-agent:Baiduspider
Allow:/
User-agent:*
Disallow:/

例5.仅允许Baiduspider以及Googlebot访问;

User-agent:Baiduspider
Allow:/
User-agent:Googlebot
Allow:/
User-agent:*
Disallow:/

例6.禁止spider访问特定目录 在这个例子中,该网站有三个目录对搜索引擎的访问 做了限制,即robot不会访问这三个目录。需要注意的 是对每一个目录必须分开声明,而不能写成Disallow: /cgi-bin/ /temp/”;

User-agent:*
Disallow:/cgi-bin/
Disallow:/temp/
Disallow:/~joe/

例7.使用“$”限制访问url,仅允许访问以“.htm”为后缀的url;

User-agent:*
Allow:/.htm$
Disallow:/

例8.禁止访问网站中所有的动态页面;

User-agent:*
Disallow:/*?*

例9.禁止Baiduspider抓取网站上所有图片仅允许抓取网页,禁止抓取任何图片;

User-agent:Baiduspider
Disallow:/*.jpg$
Disallow:/*.jpegs$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$

例10.仅允许Baiduspider抓取网页和gif格式的图片,不允许抓取其他格式图片;

User-agent:Baiduspider
Allow:/*.gif$
Disallow:/*.jpg$
Disallow:/*.jpegs$
Disallow:/*.png$
Disallow:/*.bmp$

例11.仅禁止Baiduspider抓取jpg格式图片。

User-agent:Baiduspider
Disallow:/*.jpg$

标签: seo

移动端可扫我直达哦~

推荐阅读

seo 2023-11-08

对必应搜索批量提交网址的尝试

关于IndexNowIndexNow是一个易于使用的协议,当任何URL上的网站内容更新或被创建时,网站都可以调用该协议来通知Bing,帮助URL更快的为Bing所发现。准备工作首先你需要一个API密钥来匹配域的所有权以及提交的URL;...

建站相关 seo

seo 2023-09-15

typecho如何向神马推送MIP数据

神马站长平台是个很佛系的平台,比如你几周前提交了sitemap,几周后发现sitemap上只是多了点尘土。然而半年后偶尔站点又确实会有从神马搜索过来的屈指可数的访客,于是你又打开了神马站长平台,找回失散了半年的密码,满怀期待的点击登陆...

建站相关 seo

seo 2022-10-17

百度api推送typecho文章

对于希望能被百度所收录的站点,百度提供了多种文章提交方式。用户可以视需求选择提交sitemap,利用api提交数据,或者采用自动推送的方式。API提交和手动提交共享配额,每日至多提交10万条有价值的内容,sitemap提交配额不与其他...

建站相关 seo

seo 2022-10-13

百度统计登陆不上去一直转圈

想看看自己的站点有没有人访问,就在站点上放了一段百度统计的代码。结果挺受打击的,因为站点没有什么收录,所以也没有什么访客,来访最勤的就是博主自己。虽然明知道结果,挂上统计之后还是会习惯性的登陆百度统计去看一眼。之前一直挺正常的,5月3...

建站相关 seo

seo 2022-10-12

浏览器导致必应站长平台无法登录

建站之初,很热衷于查看站点的访问量,也经常登录必应站长平台,扫描扫描博客上少的可怜的几篇博文,看看是不是有什么SEO错误。这种热度持续了有个把月吧,有一天突然发现,必应站长平台无法正常登陆,输入密码后始终停留在一个提交站点的页面,输入...

建站相关 seo

seo 2022-10-08

百度移动Sitemap协议

什么是移动Sitemap协议百度推出了移动端的Sitemap协议,用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的,增加了一个<mobile:mobile/>标签,它有以下四种...

建站相关 seo

seo 2022-10-08

noreferrer、noopener与nofollow属性

浏览器允许html为链接添加rel属性,以解释链接所处当前文档与被指向的链接文档的关系,noreferrer、noopener、nofollow都是rel的许用属性,它们彼此不相关,每个属性都有自己的用途,让我们看看这三个“no”都是...

建站相关 seo

seo 2022-10-05

几个常用的站长平台

好不容易建立了自己的站点,如果希望能被搜索引擎尽快关注到,少不了要去几个常用的站长平台上熟悉熟悉规则,以确保自己的站点没有什么违规设置,符合几个搜索引擎的收录要求。百度依旧是目前市占率最高的搜索引擎,而360凭借着360急速浏览器的普...

建站相关 seo

seo 2022-09-29

百度自动推送工具

什么是自动推送工具?自动推送JS代码是百度搜索资源平台最新推出的轻量级链接提交组件,站长只需将自动推送的JS代码放置在站点每一个页面源代码中,当页面被访问时,页面链接会自动推送给百度,有利于新页面更快被百度发现。为了更快速的发现站点每...

建站相关 seo

seo 2022-09-29

360自动推送工具

360凭借安全浏览器以及360急速浏览器占据了很大一部分用户的桌面,得益于浏览器的普及,其捆绑的360搜索引擎,市场占有率也是节节攀升。中国互联网络信息中心CNNIC发布了第46次中国互联网络发展状况统计报告。数据显示:2018年6月...

建站相关 seo

seo 2022-09-29

seo中的robots文件

robots协议是个啥robots协议是被访站点与网络爬虫间的协议,利用一个简单的txt格式文本,告知来访爬虫其被允许爬取的范围。robots协议文件是搜索引擎访问网站时优先查看的文件。当一个搜索引擎爬虫访问一个站点时,它会首先检查该...

建站相关 seo

seo 2022-09-29

百度站长平台验证站点

百度站长平台是比较早的叫法,新的名称是百度搜索资源平台,相较于必应的“站点管理员工具”这样的命名,“百度搜索资源平台”这样的命名,细想一下,弱化了站长的作用,凸显了平台的地位。希望自己的站点为百度所收录,除了被动的等待搜索机器人随机爬...

建站相关 seo