爬虫在很多情况下需要伪装IP。为了防止邮件爬虫和其他恶意网络爬虫离开任何用户代理字段内容,它们还会将自己伪装成浏览器或其他众所周知的网络爬虫。使用http请求的用户代理字段向网络服务器指示他们的身份。网络管理员检查网络服务器的日志,并使用用户代理字段来识别哪个爬网程序已经访问过以及访问的频率,用户代理字段可能包含允许管理员获取有关爬网程序的更多信息的URL。
一般来说,爬虫有足够的http代理ip,不容易被硬化。而一些中小网站想屏蔽你,宁愿花高成本,把你全部抓起来;因为大多数网站没有虚拟专用网,所以它们使用虚拟空间或PAAS云,如SAE、BAE。其实就算他们不考虑SEO (Search Engine Optimization),用ajax渲染网页数据,我也可以用webkit浏览器组件处理ajax后的数据。也可以寻找代理网站,抓取ip进行动态轮询,或者使用他人制作的第三方ip代理平台来解决上述问题。
但是,也有一些网站不够忙。他就是喜欢从日志里一行行分析你的ip,然后统计高频的网站。这个时候该怎么办?其实方法很简单,就是使用大量的主机,还要保证爬虫种子的数量,多个ip是没有问题的。通过一些比较伤脑细胞的策略,我们能不能把爬虫完全伪装成网友的浏览行为,从而避开大多数反爬虫的策略?