凯哥,我们来说说“机器人”。这个robots是一个声明协议,作为网站和搜索引擎之间的桥梁。你在这个协议里写的,就是告诉搜索引擎的蜘蛛,网站的哪些地方应该访问,哪些地方不能访问!当然,如果你想让搜索引擎收录网站上的所有内容,就不要构建robots.txt文件。
Robots.txt文件是一个放置在站点根目录下的纯文本文件。网站建好之后或者网站正式上线之前,首先要做的就是创建机器人,因为网站上线之后,很有可能搜索引擎的这些蜘蛛会索引自己的网站,这个时候机器人文件的存在就显得尤为关键!蜘蛛来了,你要告诉它站内哪些路径可以被索引,哪些路径或者文件不能被收录!

机器人文件呢?
我们可以创建一个名为robots.txt的空白色文本文档,放在网站的根目录下。
记住,三个命令是最重要的:用户代理、禁止和允许。
它通常以一行或多行用户代理开始,后面跟着几行DisAllow和Allow!
User-agent:这里写在后面的值用来描述搜索引擎机器人的名称。在“robots.txt”文件中,如果有多条用户代理记录,则意味着多个机器人将受到“robots.txt”的限制,但至少一个机器人文件应该至少有一条用户代理记录。如果该项的值设置为*,则对任何机器人都有效。在“robot s.txt”文件中,只能有一条类似“User-agent:”的记录。
例如用户代理:*
不允许:“说明机器人可以访问该网站所有URL。在“/robots.txt”文件中,必须至少有一条不允许记录。如果“robots.txt”不存在或者是空文件,网站对所有搜索引擎robot开放。
如果在“robots.txt”文件中添加了“User-agent:SomeBot”和几个不允许和允许行,则“SomeBot”的名称只受“User-agent:SomeBot”后面的不允许和允许行的限制。Disallow:写在这里后面的值用来描述一组不想被访问的URL。该值可以是完整的路径,也可以是路径的非空前缀。robot将不会访问以“不允许项目”值开头的URL。
例如
“禁止:/help”禁止机器人访问/help.html、/helpabc.html、/help/index.html,而“禁止:/help/”允许机器人访问/help.html、/helpabc.html,但不允许访问/help/index.html。”
Allow:写在这里后面的值用来描述你想要访问的一组URL。与DisAllow项类似,该值可以是完整的路径或路径前缀。允许机器人访问以allow项的值开头的URL。例如
“Allow:/hibaidu”允许机器人访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html,一个网站的所有URL都是默认允许的,所以Allow通常和Disallow一起使用,实现允许访问部分网页同时禁止访问其他所有URL的功能。
使用“*”和“$”:
Baiduspider支持使用通配符“*”和“$”来模糊匹配URL。“*”匹配0个或多个任意字符“$”匹配行终止符。
最后需要注意的是,机器人的相关协议会被严格遵守。请注意区分不想被抓取或收录的目录的大小写,用robots写的文件会和不想被抓取或收录的目录完全匹配。否则,机器人协议将不会生效。
robots.txt文件用法示例
不想被搜索引擎抓取,公之于众。
.为了解决这个问题,开发社区提供了两个解决方案:一个是robots.txt,另一个是Robots meta标签:
默认为全部,其属性描述如下:设置为全部:检索文件,可以查询页面上的链接;设置为无:不检索文件,无法查询页面上的链接;设置为index:将检索文件;设置为跟随:页面上的链接可以查询;设置为noindex:不检索文件,但可以查询页面上的链接;设置为nofollow:不检索文件,可以查询页面上的链接。
除了robots,meta robots标签是页面头部的一种标签,也是禁止搜索引擎索引页面内容的指令。
Nofollow:禁止搜索引擎跟随本页的链接!
如果您不希望搜索引擎在不传递链接权重的情况下跟踪此网页上的链接,请将此meta标签放在网页的一部分:
如果您不想关注某个特定链接并支持更精确的控制,请直接在某个链接上写下此标记:
登录
要允许其他搜索引擎跟踪,但仅阻止您网页的链接被跟踪,请将此元标签放在网页的以下部分:
禁止搜索引擎在搜索结果中显示网页快照。
要防止所有搜索引擎显示您网站的快照,请将此元标签放在网页的部分:
要允许其他搜索引擎显示快照,但仅阻止它们显示,请使用以下标签:

注意:这个标记只是禁止显示网页的快照,会继续索引网页,并在搜索结果中显示网页摘要。
禁止图像搜索包括某些图像的方法
图像搜索也使用与网络搜索相同的蜘蛛。如果你想禁止Baiduspider抓取网站上的所有图片,禁止或允许Baiduspider抓取网站上某种格式的图片文件,可以通过设置robots来实现:
说了这么多,我们来看一些例子:
///允许所有搜索引擎访问网站的所有部分
用户代理:*不允许:或用户代理:*允许:/
///禁止所有搜索引擎访问网站的所有部分
用户代理:*不允许:/
///如果我们需要一个搜索引擎来抓取,比如禁止索引我们的网站。
用户代理:BaiduspiderDisallow: /
///禁止除索引我们网站以外的所有搜索引擎。
用户代理:BaiduspiderDisallow:用户代理:*不允许:/
///禁止蜘蛛访问某个目录,比如禁止admin、css、images等目录被索引。
用户代理:*不允许:/CSS/不允许:/admin/不允许:/images/
///允许蜘蛛访问我们网站目录中的某些特定URL
用户代理:* Allow:/CSS/my Allow:/admin/html Allow:/images/index Disallow:/CSS/Disallow:/admin/Disallow:/images/
///网站的robots.txt里面的Allow或者Allow里面会有很多符号,比如问号星号什么的。如果使用“*”,主要是限制访问带有某个后缀的域名,禁止访问所有带有“.”的URL。/html/目录中的。
用户代理:*Disallow: /html/*。html文件的后缀
///当我们使用“$”时,我们只允许访问目录中带有后缀的文件。
用户代理:*允许:。asp$Disallow: /
///禁止对网站中的所有动态页面进行索引
用户代理:*不允许:/* *
///禁止搜索引擎抓取我们网站的所有图片。
用户代理:BaiduspiderDisallow:。jpg$Disallow:。jpeg$Disallow:。gif$Disallow:。png$Disallow:。bmp$
///只允许抓取网站上的“JPG”格式文件。
用户代理:BaiduspiderAllow:。jpg$Disallow:。jpeg$Disallow:。gif$Disallow:。png$Disallow:。bmp$
///如果想禁止搜索引擎访问某些目录或者某些网址,可以拦截一些名称。

用户代理:*Disallow: /plus/feedback.php
这个robots.txt协议也很详细,nofollow也是站点链接的一个重点。改天再说吧,先熟悉一下这个看门人!【现在是移动互联网时代。是不是总觉得SEO的知识没用?在优化移动站点或者小程序的时候,也是注重细节的,所以还是要多学习]
猜猜你喜欢什么:
一张图帮你分析SEO——什么是搜索引擎优化?“一”
一张图帮你分析SEO——什么是搜索引擎优化?“二”


