根据系统结构和实现技术,网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量网络爬虫和深度网络爬虫。实际的网络爬虫系统通常是通过几种爬虫技术的结合来实现的。
一、通用网络爬虫
一般的网络爬虫称为全网爬虫,抓取对象从一些种子URL扩展到全网,主要为门户网站搜索引擎和大型Web服务提供商收集网络数据。由于商业服务,他们的技术细节不太公开。这类网络爬虫的爬行类别和数量巨大,对爬行速度和存储空间要求较高,爬行顺序相对较低。同时,由于需要刷新的页面太多,通常会并行工作,但是刷新一次页面需要很长时间。虽然存在一些不足,但通用网络爬虫适用于搜索引擎搜索广泛的主题,具有很强的应用价值。
二、增量式网络爬虫
增量式网络爬虫是指对下载的网页进行增量更新,只抓取新生成或更改的网页的爬虫。它可以在一定程度上保证抓取的页面尽可能的新。与周期性抓取和刷新页面的网络爬虫相比,增量爬虫只在需要时抓取新生成或更新的网页,不重新下载不变的网页,可以有效减少数据下载量,及时更新抓取的网页,减少时间和空间消耗,但增加了抓取算法的复杂度和实现难度。增量式网络爬虫的体系结构包括爬行模块、排序模块、更新模块、本地页面集、待爬行URL集和本地页面URL集等。
三、深度网络爬虫
网页按照存在方式可以分为表层网页和深层网页(也称为不可见网页或隐藏网页)。Surface Web页面是指传统搜索引擎可以索引的网页,主要由超链接可以到达的静态网页组成。Deep Web是一个大部分内容无法通过静态链接获取的网页,隐藏在搜索表单的背后,只能通过用户提交一些关键词来获取。例如,那些内容只有在用户注册后才能看到的网页属于深度网络。2000年,光明星球指出,深度网的可访问信息容量是表层网的几百倍,是互联网上规模最大、增长最快的新信息资源。
IP模拟器代理IP代理,国内最可靠的IP代理,高度匿名代理,API调用频率快,并发请求数量不限,价格低,速度快稳定,多机调用,免费试用!