爬虫有哪些分类？常见的几种网络爬虫

虽然爬虫可以爬取网页，获取大量数据，但并不是所有的爬虫都能实现这些功能。爬虫也有分类。不同的爬虫可以实现的功能是不一样的，那么爬虫有哪些分类呢？这些不同的爬虫能爬取什么？下面通过IP模拟器代理来了解爬虫的分类。

根据授权情况

1。恶意爬虫

通过自行分析构造参数，爬取或提交数据到非公共接口，获取对方不愿意被大量获取的数据，可能对性能造成极大损失对方的服务器。爬虫类和反爬虫类之间通常会发生激烈的对抗。

2。合法爬虫

对行为符合Robots协议规范的网页进行抓取，或抓取互联网公共接口，或购买接口授权进行抓取，均为合法爬虫。这类爬虫通常不考虑反爬虫等对抗性工作。

根据爬虫功能

1。接口爬虫

通过准确构造特定的API接口数据信息，获取大量的请求数据。

2。网络爬虫

主要是搜索引擎爬虫，根据网页上的超链接进行遍历爬取。

爬虫分类

根据爬取的网站数量

1。增量爬虫

增量更新是指更新时，只有改变的地方更新，不变的地方不更新。仅抓取内容更改的网页或新生成的网页。在一定程度上，它可以保证被爬取的网页尽可能是新的。

2。通用爬虫

抓取目标资源在整个互联网中，抓取的目标数据是巨大的。爬取性能要求非常高。用于大型搜索引擎，具有非常高的应用价值。

爬行策略：有深度优先爬行策略和广度优先爬行策略。

基本组成：初始URL采集、URL队列、页面爬取模块、页面分析模块、页面数据库、链接过滤模块等。

3．深层网络爬虫

表面网页：无需提交表单即可使用静态链接访问的静态网页。

深层网页：隐藏在表单后面，无法通过静态链接直接获取，是提交特定关键字后才能获取的网页。

深度网络爬虫最重要的部分是表单填写部分。

基本组成：URL列表、LVS列表（LVS指标签/值集合，即填写表单的数据源）爬虫控制器、解析器、LVS控制器、表单分析器、表单处理器、响应

深度网络爬虫表单填写有两种类型：

基于领域知识的表单填写（建立填写表单的关键词库，需要时选择对应的关键根据语义分析词填写）。

基于网页结构分析的表单填写（通常在字段有限的情况下使用，该方法会分析网页结构并自动填写表单）。

4。专注于网络爬虫

将抓取目标定位在与主题相关的页面中，主要用于抓取特定信息，主要为某类特定人群服务。

爬取策略：基于内容评价的爬取策略、基于链接评价的爬取策略、基于强化学习的爬取策略、基于上下文图的爬取策略、针对网络爬虫的具体爬取策略。

基本组成：初始URL、URL队列、页面抓取模块、页面分析模块、页面数据库、连接过滤模块、内容评估模块、链接评估模块等。

关于分类爬虫，上面介绍了三类爬虫。它们根据授权、功能和抓取网站的数量进行分类。不同的爬虫可以爬取不同的内容。根据实际爬取需求，比如只爬取网页的某一部分。

IP模拟器