robots.txt文件的格式与示例

建站相关
2022-09-29
1975

robots.txt文件的格式

robots文件往往放置于根目录下，包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

<field>:<optional space><value><optionalspace>

User-agent

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：
User-agent:该项的值用于描述搜索引擎robot的名字。在”robots.txt”文件中，如果有多条User-agent记录说明有多个robot会受到”robots.txt”的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为，则对任何robot均有效，在”robots.txt”文件中，”User-agent:”这样的记录只能有一条。如果在”robots.txt”文件中，加入”User-agent:SomeBot”和若干Disallow、Allow行，那么名为”SomeBot”只受到”User-agent:SomeBot”后面的 Disallow和Allow行的限制。

Disallow

Disallow:该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如”Disallow:/help”禁止robot访问/help.html、/helpabc.html、/help/index.html，而”Disallow:/help/”则允许robot访问/help.html、/helpabc.html，不能访问/help/index.html。”Disallow:”说明允许robot访问该网站的所有url，在”/robots.txt”文件中，至少要有一条Disallow记录。如果”/robots.txt”不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

Allow

Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。例如”Allow:/hibaidu”允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

通配符

使用“*”和“$”：Baiduspider支持使用通配符“*”和“$”来模糊匹配url。

“*”：匹配0或多个任意字符
“$”：匹配行结束符

几个robots.txt的示例

例1.禁止所有搜索引擎访问网站的任何部分；

User-agent:*
Disallow:/

例2.允许所有的robot访问；

User-agent:*
Allow:/

例3.仅禁止Baiduspider访问您的网站；

User-agent:Baiduspider
Disallow:/

例4.仅允许Baiduspider访问您的网站；

User-agent:Baiduspider
Allow:/
User-agent:*
Disallow:/

例5.仅允许Baiduspider以及Googlebot访问；

User-agent:Baiduspider
Allow:/
User-agent:Googlebot
Allow:/
User-agent:*
Disallow:/

例6.禁止spider访问特定目录在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成Disallow: /cgi-bin/ /temp/”；

User-agent:*
Disallow:/cgi-bin/
Disallow:/temp/
Disallow:/~joe/

例7.使用“$”限制访问url，仅允许访问以“.htm”为后缀的url；

User-agent:*
Allow:/.htm$
Disallow:/

例8.禁止访问网站中所有的动态页面；

User-agent:*
Disallow:/*?*

例9.禁止Baiduspider抓取网站上所有图片仅允许抓取网页,禁止抓取任何图片；

User-agent:Baiduspider
Disallow:/*.jpg$
Disallow:/*.jpegs$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$

例10.仅允许Baiduspider抓取网页和gif格式的图片，不允许抓取其他格式图片；

User-agent:Baiduspider
Allow:/*.gif$
Disallow:/*.jpg$
Disallow:/*.jpegs$
Disallow:/*.png$
Disallow:/*.bmp$

例11.仅禁止Baiduspider抓取jpg格式图片。

User-agent:Baiduspider
Disallow:/*.jpg$

标签: seo

移动端可扫我直达哦~

本文作者：Alphonse

本文链接：robots.txt文件的格式与示例 - https://www.abddb.com/sample_of_robots.html

对必应搜索批量提交网址的尝试

关于IndexNowIndexNow是一个易于使用的协议，当任何URL上的网站内容更新或被创建时，网站都可以调用该协议来通知Bing，帮助URL更快的为Bing所发现。准备工作首先你需要一个API密钥来匹配域的所有权以及提交的URL；...

建站相关 seo

2023-09-15

typecho如何向神马推送MIP数据

神马站长平台是个很佛系的平台，比如你几周前提交了sitemap，几周后发现sitemap上只是多了点尘土。然而半年后偶尔站点又确实会有从神马搜索过来的屈指可数的访客，于是你又打开了神马站长平台，找回失散了半年的密码，满怀期待的点击登陆...

建站相关 seo

2022-10-17

百度api推送typecho文章

对于希望能被百度所收录的站点，百度提供了多种文章提交方式。用户可以视需求选择提交sitemap，利用api提交数据，或者采用自动推送的方式。API提交和手动提交共享配额，每日至多提交10万条有价值的内容，sitemap提交配额不与其他...

建站相关 seo

2022-10-13

百度统计登陆不上去一直转圈

想看看自己的站点有没有人访问，就在站点上放了一段百度统计的代码。结果挺受打击的，因为站点没有什么收录，所以也没有什么访客，来访最勤的就是博主自己。虽然明知道结果，挂上统计之后还是会习惯性的登陆百度统计去看一眼。之前一直挺正常的，5月3...

建站相关 seo

2022-10-12

浏览器导致必应站长平台无法登录

建站之初，很热衷于查看站点的访问量，也经常登录必应站长平台，扫描扫描博客上少的可怜的几篇博文，看看是不是有什么SEO错误。这种热度持续了有个把月吧，有一天突然发现，必应站长平台无法正常登陆，输入密码后始终停留在一个提交站点的页面，输入...

建站相关 seo

2022-10-08

百度移动Sitemap协议

什么是移动Sitemap协议百度推出了移动端的Sitemap协议，用于将网址提交给移动搜索收录。百度移动Sitemap协议是在标准Sitemap协议基础上制定的，增加了一个<mobile:mobile/>标签，它有以下四种...

建站相关 seo

2022-10-08

noreferrer、noopener与nofollow属性

浏览器允许html为链接添加rel属性，以解释链接所处当前文档与被指向的链接文档的关系，noreferrer、noopener、nofollow都是rel的许用属性，它们彼此不相关，每个属性都有自己的用途，让我们看看这三个“no”都是...

建站相关 seo

2022-10-05

几个常用的站长平台

好不容易建立了自己的站点，如果希望能被搜索引擎尽快关注到，少不了要去几个常用的站长平台上熟悉熟悉规则，以确保自己的站点没有什么违规设置，符合几个搜索引擎的收录要求。百度依旧是目前市占率最高的搜索引擎，而360凭借着360急速浏览器的普...

建站相关 seo

2022-09-29

百度自动推送工具

什么是自动推送工具?自动推送JS代码是百度搜索资源平台最新推出的轻量级链接提交组件，站长只需将自动推送的JS代码放置在站点每一个页面源代码中，当页面被访问时，页面链接会自动推送给百度，有利于新页面更快被百度发现。为了更快速的发现站点每...

建站相关 seo

2022-09-29

360自动推送工具

360凭借安全浏览器以及360急速浏览器占据了很大一部分用户的桌面，得益于浏览器的普及，其捆绑的360搜索引擎，市场占有率也是节节攀升。中国互联网络信息中心CNNIC发布了第46次中国互联网络发展状况统计报告。数据显示：2018年6月...

建站相关 seo

2022-09-29

seo中的robots文件

robots协议是个啥robots协议是被访站点与网络爬虫间的协议，利用一个简单的txt格式文本，告知来访爬虫其被允许爬取的范围。robots协议文件是搜索引擎访问网站时优先查看的文件。当一个搜索引擎爬虫访问一个站点时，它会首先检查该...

建站相关 seo

2022-09-29

百度站长平台验证站点

百度站长平台是比较早的叫法，新的名称是百度搜索资源平台，相较于必应的“站点管理员工具”这样的命名，“百度搜索资源平台”这样的命名，细想一下，弱化了站长的作用，凸显了平台的地位。希望自己的站点为百度所收录，除了被动的等待搜索机器人随机爬...

建站相关 seo

网站信息
Website	小鸟数据
Theme By	Alphonse
ICP备案号	浙ICP备19013381号-3

robots.txt文件的格式与示例