在一大堆专业术语中,最广为人知的大概就是“网络爬虫”了。事实上,网络爬虫的名字已经显示了这种技术的作用,特别是像密集的蠕虫一样在网络上均匀分布,使用http代理IP爬行到每个网站以获得数据;也在一定程度上表达了人们对这项技术的情感倾向——爬行动物可能是无害的,但总是不受欢迎。
为了防止同一个代理IP访问同一个网站,该IP长时间访问同一个网站极有可能被屏蔽。
解决技术含量高的IP代理问题很方便,找代理也方便省事。
成本低维护服务器本身的成本太高,不亚于长期可持续发展。
有一种说法是,互联网上60%的流量是由网络爬虫创造的。这种说法虽然有些夸张,但也反映了网络爬虫的无处不在。爬虫无处不在,因为能给互联网公司带来收益。