没有代理IP,网络爬虫会被限制吗?很多人认为爬虫必须使用代理IP,没有代理IP就很难。也有人说,代理IP不是必须的。那么他们这样想的原因是什么呢?
有朋友说,他用的机车收集器是用来收集一些物品,然后按照自己的要求进行加工。他从来不用代理IP,一天大概收集一万篇文章。他觉得不用代理IP照片也能爬。
一个朋友说他自己写的爬虫程序。该公司的任务是每天抓取数十万页。有时候,当有很多任务时,一天要花费数百万。爬行ip时,它被阻止。没有代理IP,是不可能的。他认为没有代理IP爬虫,就不可能。
显然,他们说的很有道理,他们都用亲身经历证明了自己的观点。事实上,爬虫程序本质上只是一个访问网页的用户。只是一个不守规则的特殊用户。服务器一般不欢迎这种总是被各种手段发现和禁止的特殊用户。最常见的是判断你的访问频率,因为普通人访问网页的频率不是很快,如果发现某个ip访问太快,就会被封禁。
当工作量不是很大的时候,也就是像第一个朋友一样,可以慢慢爬,但是频率不是很快,这对于目标服务器来说似乎是可以忍受的,也不影响正常运行,这样就不会封IP,这样就可以在没有代理IP的情况下完成每天的工作量。
当任务量比较大的时候,比如第二个朋友,一天有几十万几百万的数据,你就不能慢慢完成任务。如果你加快爬升速度,压力过大目标服务器会被IP封锁,你也无法完成任务。我能怎么做呢?我得用代理IP来解决。
比如一个IP短时间内被访问100次,会被目标服务器认为访问太快,导致IP被阻塞,而10个代理IP短时间内被访问10次,则不会被认为太快而阻塞。当任务量巨大时,使用代理IP往往可以事半功倍,这也是为什么有人认为没有代理IP就没有网络爬虫的原因。