如何对付网络爬虫

2023-08-08 10:30 来源：网友发布作者：网友发布浏览：42

核心提示网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如，要启用一个新的域名做镜像网站，主要用于PPC的推广，这个时候就要想法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。比如，要启用一个新的域名做镜像网站，主要用于PPC的推广，这个时候就要想法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。1、通过robots.txt文件屏蔽可以说robots.txt文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：User-agent:BaiduspiderDisallow:/User-agent:GooglebotDisallow:/User-agent:Googlebot-MobileDisallow:/User-agent:Googlebot-ImageDisallow:/User-agent:Mediapartners-GoogleDisallow:/User-agent:Adsbot-GoogleDisallow:/User-agent:Feedfetcher-GoogleDisallow:/User-agent:Yahoo!SlurpDisallow:/User-agent:Yahoo!SlurpChinaDisallow:/User-agent:Yahoo!-AdCrawlerDisallow:/User-agent:YoudaoBotDisallow:/User-agent:SosospiderDisallow:/User-agent:SogouspiderDisallow:/User-agent:SogouwebspiderDisallow:/User-agent:MSNBotDisallow:/User-agent:ia_archiverDisallow:/User-agent:TomatoBotDisallow:/User-agent:*Disallow:/2、通过metatag屏蔽在所有的网页头部文件添加，添加如下语句：3、通过服务器（如：Linux/nginx）配置文件设置直接过滤spider/robots的IP段。小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守robots.txt协议的spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些badbot的ip，然后屏蔽之。

精准大数据营销其事实上是运用网络爬虫,从淘宝网、京东商城等网址上爬得到商家手机号码后，用以营销推广。除此之外，依靠此软件，根据微信附近的人，客户可随意设置虚拟位置后大批量申请办理朋友，还能“站街”垂钓营销推广。

有安全专家表示，当用户发生上网行为时会发送数据包，内含行为痕迹、手机号等信息。一旦涉及某一方发生泄露，通过抓取这个数据包便可以解析出来用户的敏感信息。爬虫技术则分成合理合法网络爬虫和故意网络爬虫二种。某些说白了的大数据公司自身_有统计数据来源于，只是根据网络爬虫方式获得别人的统计数据。

在网络空间，数据战争已进入白热化。2019年5月份，国家互联网信息办公室发布的《数据安全管理办法》征求意见稿第十五条也规定了，“网络运营者以经营为目的收集重要数据或个人敏感信息的，应向所在地网信部门备案。”除此之外，大部分网址早就对故意网络爬虫搭建反爬对策并做出申明严格严禁，有刑事辩护律师直言不讳，“攻克、避开网络平台的反网络爬虫对策、协议书时，或因涉嫌不法获得互联网系统软件统计数据罪、入侵不法操纵互联网系统软件程序流程专用工具罪。”

望采纳！