|-转 Robots.txt详解
Robots协议(也称爬虫协议,机器人协议等)的全称是“网络爬虫排除协议”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots.txt的作用:
可以让蜘蛛更高效的爬行网站;
可以阻止蜘蛛爬行动态页面,从而解决重复收录的问题;
可以减少蜘蛛爬行无效页面,节省服务器带宽;
如何制作Robots.txt文件?
创建一个文本文档,重命名为Robots.txt,编写规则,用FTP把文件上传到空间;
创建robots.txt文件需要注意的问题:
必须是txt结尾的纯文本文件;
文件名所有字母必须是小写;
文件必须要放在网站根目录下;
Robots参数:
User-agent:
作用:用于描述搜索引擎蜘蛛的名字;
技巧:
1,当robots.txt不为空的时候,必须至少有一条user-agent的记录;
2,相同名字,只能有一条,但是不同的蜘蛛,可以有多条记录;
Disallow:
作用:用于描述不允许搜索引擎蜘蛛爬行和抓取的url;
使用技巧:
在robots.txt中至少要有一条disallow;
Disallow记录为空,则表示网站所有页面都允许被抓取;
使用disallow,每个页面必须单独分开声明; ...
浏览更多内容请先登录。
立即注册
更新于:2022-04-12 08:03:10
相关内容
搜索引擎优化(SEO)相关整理
为什么百度手机搜索和电脑搜索排名不一样
百度移动端和PC端蜘蛛的区别
百度SEO,PC端与移动端排名,为什么不一致?
百度指数关键词整理
百度、搜狗、360、谷歌、Bing、神马、头条搜索-各大搜索引擎收录提交入口(...
Robots.txt详解
您的站点地图或站点地图索引文件未能正确声明命名空间
php的curl和php正则获取网站在爱站查询的百度权重
解决Bing不收录网站的问题
Centos中查看nginx、apache、php、mysql配置文件路径
开源商城shopwind安装许可协议
推荐内容