哪些场景会返回403错误?python使用代理爬取防止

当我们访问网页时,我们经常会遇到一些403错误。这是什么意思?
 
403禁是HTTP协议中的一个状态码,表示没有权限访问这个站。每当出现这种403错误时,意味着服务器理解请求,但拒绝执行任务,请求不应重新传输到服务器。当HTTP请求的方法不是“HEAD”,服务器想让客户端知道为什么没有权限时,服务器应该在返回的信息中描述拒绝的原因。
 
如果服务器不想提供任何反馈信息,服务器可以将403禁止替换为404未找到。
 
哪些场景通常会返回403个错误:
 
1.用户访问只能由内部网访问的文件;
 
2.访问禁止浏览的目录,比如设置autoindex关闭后访问目录;
 
3.网站禁止特定用户访问所有内容,例如,网站阻止ip访问。
 
上面分享了三个需要返回403个错误的常见场景。为了防止返回403,防止爬虫被拦截,我们在抓取数据时需要及时更换不同的IPs。python使用代理爬行方法:
 
 
对于代理商的选择,最好选择好一点的。而且自由代理不稳定,可用率太低,不高,安全性不高。爬行要花很多时间,或者使用IP代理要花一点钱,既高效又放心。边肖使用的IP模拟器代理也很好,稳定性和可用性可靠,没有问题。