为了防止邮件爬虫和其他恶意网络,爬虫会将自己伪装成浏览器或其他众所周知的网络爬虫。使用http请求的用户代理字段向网络服务器指示他们的身份。网络管理员检查网络服务器的日志,并使用IP代理字段来识别哪个爬网程序已经访问过以及访问的频率,可能包含允许管理员获取有关爬网程序的更多信息的URL。
一般来说爬虫有足够的ip,不容易被硬化。而一些中小网站想屏蔽你,宁愿花高成本,把你全部抓起来;因为大多数网站没有虚拟专用网,所以它们使用虚拟空间或PAAS云,如SAE、BAE。其实就算他们不考虑SEO (Search Engine Optimization),用ajax渲染网页数据,我也可以用webkit浏览器组件处理ajax后的数据。也可以寻找IP代理网站,抓取ip进行动态轮询,或者使用他人制作的第三方ip代理平台来解决上述问题。
但是,也有一些网站不够忙,他就是喜欢从日志里一行行分析你的ip,然后统计高频的网站。这个时候该怎么办?其实方法很简单,就是使用大量的主机,还要保证爬虫种子的数量,多个ip是没有问题的。通过一些比较伤脑细胞的策略,我们能不能把爬虫完全伪装成网友的浏览行为,从而避开大多数反爬虫的策略。