selenium+python设置爬虫代理IP的方法
1.设置后台
是使用selenium浏览器渲染技术,当我们爬取某个网站的信息时 ,一般情况下,速度不是特别快。 另外,需要使用selenium浏览器渲染技术进行爬取的网站,反爬虫响应技术都比较强大,对IP访问的频率有很大的限制。 因此,如果要提高selenium爬取数据的速度,可以从两个方面入手:
第一,爬取频率要提高,出现的验证信息 破解一般是验证码或者用户登录。
第二个方面是使用多线程+代理IP。 这种方法需要电脑有足够的内存和足够稳定的代理IP。
2。 为chrome
动态IP模拟器设置代理IP
注意:
一、选择一个稳定固定的代理IP。 不要选择动态代理IP。 我们常用的爬虫IP代理一般都是高度匿名的动态IP,保密性高,通过拨号动态生成,时效很短,一般3分钟左右。 非常适合高并发不需要登录的爬虫,比如scrapy,但是不适合浏览器渲染的爬虫。
二、选择更快的代理IP。 因为selenium爬虫使用浏览器渲染技术,这种浏览器渲染技术天生就慢。 如果选择的代理IP较慢,则爬取时间会进一步增加。
三、必须有足够的电脑内存。 由于chrome占用大量内存,在高并发的情况下,很容易导致浏览器崩溃,即程序崩溃。
四、程序最后调用browser.quit()清除浏览器缓存。
3。 需要用户名和密码认证的代理