当您抓取网站并为此使用自动工具时,您只能接收来自1个IP的有限数量的请求,直到它被检测到并被禁止。当你使用代理的时候,如果不是轮换代理而是普通代理,网站也可以很容易的从1个IP地址检测到异常的、非人类的在线活动。
当可以检测到您的代理时,不一定是web爬网。也可能是因为你用了免费的代理服务或者不靠谱的代理服务。在免费代理服务的情况下,大部分IP已经被禁止/标记,所以网站可以立即看到。如果你想使用代理,并尽可能长时间保持匿名,请使用付费代理服务,并检查供应商,以确保您获得优质服务。
根据代理的性质,数据中心代理很容易被检测到,爬虫人员可以牢记所有的限制,比如你可以发送多少个请求,如何使用代理。如果你不是专业人士,想尽可能长时间不被发现,请使用住宅代理,因为住宅代理是真实的住宅ip,更难被网站发现和追踪,非常适合各种用例。