如何保证代理IP的稳定运行?由于代理IP分布在全国各地,线路多,集群结构复杂,部分线路不定期升级,代理链路偶尔可能会断开。平台提供双机热备代理服务器(切换时间1分钟左右),保证代理服务实时在线,爬虫程序需要相应优化。有两种方案:
爬虫程序需要启动一个专用线程,每1分钟访问一次“代理提取链接”。如果代理IP和端口发生变化,爬虫程序需要自动更新代理信息。(因为爬虫服务器外网IP变化或者其他网络原因,代理信息获取偶尔可能会失败,重新发起请求即可)。
(2)域名访问模式(长延迟被动更新)
通知专属客服开启“域名访问模式”,爬虫程序通过“域名和端口”连接代理服务器。定期检查平台。一旦发现在线代理服务器异常,就在后台更新域名。由于DNS服务器同步时间长,在线检测间隔长,所以这种方案是一种替代方案。