如何选择代理IP?这个问题因为python训练中的爬虫被问了无数次。一般来说,同性恋朋友问也是爬行动物用来防止禁令。一般来说,好的质量不便宜,便宜的质量相对较低,一分钱一分货。
1)代理人在整个程序中被淘汰
通过程序扫描IP段和端口找到临时代理。
比如百度搜索“HTTP代理”,上面写着“每日更新”、“国内高低免费”等等,买起来都很便宜。
他们基本一样,没有谁好谁坏,几个平台提供的代理,重复率至少30%。
这种代理,有效期不高,即使批量验证,使用的时候还是会部分废除,可以应付低效的收集和单次访问,但是忘了做别的。
2)ADSL拨号服务器
ADSL拨号,断开再连接IP,淘宝卖,有限区域拨号,全国拨号。相对稳定,至少比扫描的IP强很多,但是切换IP需要很长时间,需要几秒到一分钟。
所以,如果采集是每次访问切一次IP,效率会比较慢,只能在当前IP被对方封禁掉的情况下才能拨打新的IP。
ADSL拨号可以应对收藏、刷访问、刷点击等。效率不高。
3)第三方访问
比如通过谷歌网页翻译、有道网页翻译、http Proxy Browser等第三方访问渠道请求目标网页。
速度慢,采集捕捉目标内容时干扰大。
4)动态IP模拟器软件
HTTP代理
比如“flyvpn”和“greenvpn”,集合的意思是直接用ban改IP,而动态IP模拟器软件本身的可靠代理相当稳定,就是人要在电脑旁边,手动改。但是偶尔查一下百度几万个关键词的排名和几万个页面的收录情况,使用VPN还是挺悠闲的,这个量级总共也改变不了多少次。
5)自建代理
买一个服务器,用squid+stunnel搭建一个HTTP代理服务器。Tinyproxy就行。Squit用于实现http代理,stunnel在代理上搭建隧道实现加密。
如果你觉得ip数量少,那就多买几台服务器,配置squid~~
因为都是自建代理,都是独家真实的IP,都相当稳定。收藏、抢购、刷票、刷点击、刷主播人气什么的,只要有钱就能上飞机~ ~
去年收到爬虫列表,抢到一个国外股票网站,总页面数千万。反爬虫恶心,无奈之下买了20台低配机做HTTP代理服务器,一个月5000元~ ~
5)自建代理服务商
懒得做以上方法也没关系。找一个做类似服务的企业,开一个api端口。
这里推荐IP模拟器代理,专业的IP代理。