代理IP被禁怎么办?随着互联网时代的发展,爬虫IP的使用越来越普遍,爬虫IP的使用也并非畅通无阻。我们也会遇到这样的情况,就是爬虫IP被封禁,那么爬虫代理IP被封禁怎么办?
爬虫和反爬虫从来都是一个高一尺高一丈的姿态。反爬虫技术增加了爬行的难度。各种爬虫的抓取过程可以说是与各种站长的斗智斗勇,各种解决方案可谓层出不穷。不过这里的“简单”解决方案,肯定是基于一些基本方法,分分钟就能上手。
用户代理伪装和轮换
不同版本的浏览器有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头信息。我们可以为每个请求提供不同的user_agent,绕过网站检测客户端的反爬虫机制。例如,您可以将许多user_agent放在一个列表中,每次随机选择一个来提交访问请求。使用代理IP和轮换
检查ip的访问状态是网站反爬行机制最喜欢的方式。此时,您可以更改不同的ip地址来抓取内容。当然,你有很多主机或vps有公共ip地址,这是一个更好的选择。如果没有,可以考虑用代理服务器帮你获取网页内容,然后转发回你的电脑。代理透明性可分为透明代理、匿名代理和高度匿名代理:
透明性:目标网站知道你使用了代理和你的源IP地址,显然不符合这里使用代理的初衷。
匿名代理:匿名程度比较低,就是网站知道你用了代理,但是不知道你的源IP地址。
高隐藏代理:这是最安全的方法。目标网站不知道你用的代理,也不知道你的源IP。
获取代理的方式是购买,当然也可以免费爬。这里(http://www.xicidaili.com/nn/)有一个提供免费代理的网站,你可以爬下来使用,但是免费代理通常不够稳定。
设置访问时间间隔
很多网站的反爬虫机制都设置了访问间隔时间,如果一个IP短时间内超过规定次数,就会进入“冷却光盘”,所以除了轮换IP和user_agent
您可以将访问间隔设置得更长,例如在不抓取页面的情况下随机休眠一段时间:
Time,random time . sleep(random . random()* 3)对于一个爬虫来说,这是一种更负责任的做法。
从上面我们知道爬虫可能会造成访问对方网站的负载压力,所以这种防范不仅可以在一定程度上防止被屏蔽,还可以减轻对方的访问压力。