robots协议是个啥
robots协议是被访站点与网络爬虫间的协议,利用一个简单的txt格式文本,告知来访爬虫其被允许爬取的范围。robots协议文件是搜索引擎访问网站时优先查看的文件。当一个搜索引擎爬虫访问一个站点时,它会首先检查该站点根目录下是否存在协议文件,如果存在,搜索机器人会按照该文件中的内容来确定访问的范围;如果该文件不存在,则会访问网站上没有被口令保护所有页面。
如何创建robots协议文件
创建一个文本文档,重命名为robots.txt,编写规则,然后将其置于网站根目录下。需要注意的是文件名以及后缀必须是小写字母,文件的存放位置必须是网站根目录下。创建完成后,该文件可通过“域名/robots.txt”的方式访问。
robots.txt的关键词
User-agent: 用于描述适用协议规则的搜索引擎机器人的名字;
Disallow: 用于描述不希望被访问到的链接或者路径;
Allow: 用于描述希望被访问到的链接或者路径;
Sitemap: 用于描述被访站点站点地图的相关路径。
一个wordpress的robots.txt实例
User-agent:*
Disallow:/cgi-bin/
Disallow:/wp-admin/
Disallow:/wp-includes/
Disallow:/wp-content/cache/
Disallow:/wp-content/themes/
Disallow:/wp-content/plugins/
Disallow:/author/
Disallow:/feed/
Disallow:*/feed/
Disallow:/trackback/
Disallow:*/trackback/
Disallow:/comments/
Disallow:*/comments/
Sitemap:https://www.xxxx.com/sitemap.xml
- /cgi-bin/:cgi目录;
- /wp-admin/:wordpress的后台;
- /wp-includes/:wordpress的库;
- /wp-content/cache/:wordpress的缓存;
- /wp-content/themes/:wordpress的主题;
- /wp-content/plugins/:wordpress的插件;
- /author/:wordpress的作者目录;
- /feed/:feed目录内容与正文重复;
- /trackback/:trackback目录内容与正文重复;
- /comments/:wordpress的评论;
- Sitemap:站点地图,此处需要修改为自己的域名。