为了更好的监控网站优化,站长们几乎都会统计一些日常数据更新。网站是否有异常抓取也纳入统计。根据记录的情况,站长们不得不因地制宜的做一些分析和优化措施。
1.服务器的问题
如果服务器不稳定,网站终端无法访问和链接。或者有一种情况是一直连不上。针对这种情况,只能换好的服务器。不要贪图小便宜,最终害了网站。
2.运营商的问题
一般情况下,中国电信和中国联通都在国内使用。一般采用双线服务。如果由于使用单线服务导致网站无法访问,最好升级国内双线服务或者使用CND服务解决问题。
3.DNS异常
当蜘蛛无法解析你网站的IP时,会出现DNS异常或DNS错误,可能是服务商屏蔽了蜘蛛设置或网站IP地址不正确造成的。您可以使用工具来检查域名解析是否正确。如果不正确或无法解析,请联系域名提供商更新IP。
4.蜘蛛被禁止爬行。
这个要看检查相关代码设置,是否有禁止Baiduspider抓取的设置,或者robots协议的设置等。
5.UA被禁止
UA是用户代理,服务器通过UA识别访问者的身份,如果返回异常页面或跳转到另一个页面,则被UA封禁。
当网站不希望Baiduspider访问时,需要设置相应的访问权限。
6.死链
死链是网站中的无效页面,没有价值,访问无效。有协议死链和内容死链。
对于死链问题,我们可以制作或者统计404页,将数据提交给站长平台。
7.异常跳跃
异常是指当前无效页面,如死链或删除页面,通过301直接跳转到首页或相关目录页面。
或者跳转到错误的无效页面。
这些情况都需要注意。这仍然是301协议的主要问题。没有必要的建议不要设置。
其他情况。
A.JS代码问题。JS代码对搜索引擎不友好,也不是需要识别的重点对象。如果JS代码蜘蛛不能识别,那么问题就异常了。
B.会根据网站的内容、规模、访问情况等自动设定一个合理的抓取压力。但在非正常情况下,如果压力控制出现故障,服务器负载会突然关闭进行自我保护。
C.压力过大导致的意外堵塞:会根据站点大小、访问量等信息自动设置合理的抓取压力。但在异常情况下,比如压力控制异常,服务器会根据自身负载意外阻塞。在这种情况下,请在返回代码中返回503,以便搜索引擎蜘蛛过一段时间后再次尝试抓取此链接。如果网站空闲空,将会成功抓取。