如何抓取代理ip?当我们使用网络编写脚本从指定的网站抓取数据时,网站总是不可避免的会屏蔽IP,所以这个时候我们需要一些代理IP。当我们打开网页的时候,很容易就能找到很多提供免费代理IP做IP抓取的网站,这里介绍的是国内匿名代理IP。
第一步:HTML页面获取
通过观察,我们可以发现我们需要的信息的页面的url有这样一个规律:www.xxxxxx.com/nn/+页码。但是,如果您通过get方法直接访问它,您将发现500个错误。原因是在这个规则下,虽然URL通过get方法获取数据,但是它们都有cookie认证。那么问题来了——你怎么得到你需要的饼干?我们第一次通过浏览器访问网站首页,是可以打开的,网站的所有子模块都可以打开。在一定时间内,我们的浏览器得到了这个网站设置的cookie。清除浏览器cookie,重新打开网站主页,通过开发者工具,我们可以发现打开主页时,网站会发出cookie,而不是上传cookie。然后打开上面我们找到的常规url页面,对比一下,发现我们上传的cookie就是首页发布的cookie。这就是解决方案——编写脚本时,首先访问主页获取cookie,然后将cookie添加到后续请求中。
第二步:分析html结构,用BS4提取信息。
上面简单介绍了如何抓取代理IP,具体代码需要自己搜索。