盘点网络爬虫几种常见类型

jj
2021-11-23

根据系统结构和实现技术，网络爬虫大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量网络爬虫和深度网络爬虫。实际的网络爬虫系统通常是通过几种爬虫技术的结合来实现的。

一、通用网络爬虫

一般的网络爬虫称为全网爬虫，抓取对象从一些种子URL扩展到全网，主要为门户网站搜索引擎和大型Web服务提供商收集网络数据。由于商业服务，他们的技术细节不太公开。这类网络爬虫的爬行类别和数量巨大，对爬行速度和存储空间要求较高，爬行顺序相对较低。同时，由于需要刷新的页面太多，通常会并行工作，但是刷新一次页面需要很长时间。虽然存在一些不足，但通用网络爬虫适用于搜索引擎搜索广泛的主题，具有很强的应用价值。

二、增量式网络爬虫

增量式网络爬虫是指对下载的网页进行增量更新，只抓取新生成或更改的网页的爬虫。它可以在一定程度上保证抓取的页面尽可能的新。与周期性抓取和刷新页面的网络爬虫相比，增量爬虫只在需要时抓取新生成或更新的网页，不重新下载不变的网页，可以有效减少数据下载量，及时更新抓取的网页，减少时间和空间消耗，但增加了抓取算法的复杂度和实现难度。增量式网络爬虫的体系结构包括爬行模块、排序模块、更新模块、本地页面集、待爬行URL集和本地页面URL集等。

三、深度网络爬虫

网页按照存在方式可以分为表层网页和深层网页(也称为不可见网页或隐藏网页)。Surface Web页面是指传统搜索引擎可以索引的网页，主要由超链接可以到达的静态网页组成。Deep Web是一个大部分内容无法通过静态链接获取的网页，隐藏在搜索表单的背后，只能通过用户提交一些关键词来获取。例如，那些内容只有在用户注册后才能看到的网页属于深度网络。2000年，光明星球指出，深度网的可访问信息容量是表层网的几百倍，是互联网上规模最大、增长最快的新信息资源。

IP模拟器代理IP代理，国内最可靠的IP代理，高度匿名代理，API调用频率快，并发请求数量不限，价格低，速度快稳定，多机调用，免费试用！

IP模拟器

盘点网络爬虫几种常见类型

相关文章

搜索

最新资讯

如何同时拥有多个网络IP地址上网？

修改网络IP地址提升网络体验

变换上网IP地址避免IP受限

变动IP地址对网络工作者的好处

更改网络IP地的正确方式

随机推荐

热门标签