Python网络爬虫--Robots协议

Robots协议

Robots Exclusion Standard,网络爬虫排除标准

这东西搁以前我觉得就是放屁,但是看着一些圈子内的大佬莫名失踪(网安)自己着实对网络法规产生了敬畏。

总的来说,Robots协议是建议,遵不遵守看个人,当不遵守时就会存在法律风险

当然,网站就是为了提供服务的,像新闻这种本来就是给人看的,一个人十秒钟浏览一次,爬虫也可以如此。

所以原则就是:类人行为可不参考Robots协议。

附表:

目的 遵守建议
爬取网页 访问量小:可以遵守
访问量大:建议遵守
爬取系列网站 非商业且偶尔:建议遵守
商业利益:必须遵守
爬取全网 必须遵守
文章作者: SNCKER
文章链接: https://sncker.github.io/blog/2019/07/21/Python网络爬虫-Robots协议/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 SNCKER's blog