虽然爬虫可以爬取网页,获取大量数据,但并不是所有的爬虫都能实现这些功能。 爬虫也有分类。 不同的爬虫可以实现的功能是不一样的,那么爬虫有哪些分类呢? 这些不同的爬虫能爬取什么? 下面通过IP模拟器代理来了解爬虫的分类。
根据授权情况
1。 恶意爬虫
通过自行分析构造参数,爬取或提交数据到非公共接口,获取对方不愿意被大量获取的数据,可能对性能造成极大损失 对方的服务器。 爬虫类和反爬虫类之间通常会发生激烈的对抗。
2。 合法爬虫
对行为符合Robots协议规范的网页进行抓取,或抓取互联网公共接口,或购买接口授权进行抓取,均为合法爬虫。 这类爬虫通常不考虑反爬虫等对抗性工作。
根据爬虫功能
1。 接口爬虫
通过准确构造特定的API接口数据信息,获取大量的请求数据。
2。 网络爬虫
主要是搜索引擎爬虫,根据网页上的超链接进行遍历爬取。
爬虫分类
根据爬取的网站数量
1。增量爬虫
增量更新是指更新时,只有 改变的地方更新,不变的地方不更新。 仅抓取内容更改的网页或新生成的网页。 在一定程度上,它可以保证被爬取的网页尽可能是新的。
2。 通用爬虫
抓取目标资源 在整个互联网中,抓取的目标数据是巨大的。 爬取性能要求非常高。 用于大型搜索引擎,具有非常高的应用价值。
爬行策略:有深度优先爬行策略和广度优先爬行策略。
基本组成:初始URL采集、URL队列、页面爬取模块、页面分析模块、页面数据库、链接过滤模块等。
3. 深层网络爬虫
表面网页:无需提交表单即可使用静态链接访问的静态网页。
深层网页:隐藏在表单后面,无法通过静态链接直接获取,是提交特定关键字后才能获取的网页。
深度网络爬虫最重要的部分是表单填写部分。
基本组成:URL列表、LVS列表(LVS指标签/值集合,即填写表单的数据源)爬虫控制器、解析器、LVS控制器、表单分析器、表单处理器、响应
深度网络爬虫表单填写有两种类型:
基于领域知识的表单填写(建立填写表单的关键词库,需要时选择对应的 关键根据语义分析词填写)。
基于网页结构分析的表单填写(通常在字段有限的情况下使用,该方法会分析网页结构并自动填写表单)。
4。 专注于网络爬虫
将抓取目标定位在与主题相关的页面中,主要用于抓取特定信息,主要为某类特定人群服务。
爬取策略:基于内容评价的爬取策略、基于链接评价的爬取策略、基于强化学习的爬取策略、基于上下文图的爬取策略、针对网络爬虫的具体爬取策略。
基本组成:初始URL、URL队列、页面抓取模块、页面分析模块、页面数据库、连接过滤模块、内容评估模块、链接评估模块等。
关于分类 爬虫,上面介绍了三类爬虫。 它们根据授权、功能和抓取网站的数量进行分类。 不同的爬虫可以爬取不同的内容。 根据实际爬取需求,比如只爬取网页的某一部分。