网络爬虫需要爬虫代理IP吗?有爬虫工作者说爬虫用代理IP比较好,也有人说不用代理IP也可以。那么他们这么说的理由是什么呢?
有网友说他用的机车收集器是用来收集一些文章,然后筛选出符合自己要求的进行加工。他从来不用代理IP,一天收一万篇左右。他认为没有代理IP。
有朋友说自己写爬虫程序,公司的任务是一天爬几十万个页面。有时候任务多的时候,一天就要几百万。抓取ip时会被屏蔽。没有代理IP,是不可能的。他认为,没有代理IP爬虫,就很难移动。
他们都用自己的亲身经历验证了自己的观点。实际上,爬虫本质上是访问网页的用户,但它只是一个没有那么自律的特殊用户。一般服务器是不欢迎这种特殊用户的,总会被各种手段找到并封杀。
最常见的就是判断你的访问频率,因为普通人访问网页的频率并不是很快。如果发现某个ip访问速度过快,就会封禁。
任务量不是很大的时候,也就是像第一个朋友那样,可以慢慢爬,频率不是很快。在目标服务器看来,是可以忍受的,而且不影响正常运行,这样IP就不会被屏蔽,所以他不用代理IP就可以完成每天的任务量。
任务量比较大的时候,比如第二个朋友,一天几十万上百万的数据,你慢慢爬是完不成任务的。如果加快爬升,目标服务器压力太大,IP被封,无法完成任务。我能怎么做呢?只靠代理IP解决。
比如一个IP短时间内被访问100次,就会被目标服务器认为速度太快,导致IP被屏蔽。但如果10个代理IP短时间内被访问10次,就不会被认为太快而屏蔽。当任务庞大时,使用IP模拟器代理IP往往能事半功倍,这也是为什么有人认为没有代理IP就没有网络爬虫。