Python网络爬虫--Robots协议

2019-07-21|Python爬虫

Robots协议

Robots Exclusion Standard，网络爬虫排除标准

这东西搁以前我觉得就是放屁，但是看着一些圈子内的大佬莫名失踪（网安）自己着实对网络法规产生了敬畏。

总的来说，Robots协议是建议，遵不遵守看个人，当不遵守时就会存在法律风险。

当然，网站就是为了提供服务的，像新闻这种本来就是给人看的，一个人十秒钟浏览一次，爬虫也可以如此。

所以原则就是：类人行为可不参考Robots协议。

附表:

目的	遵守建议
爬取网页	访问量小：可以遵守访问量大：建议遵守
爬取系列网站	非商业且偶尔：建议遵守商业利益：必须遵守
爬取全网	必须遵守

文章作者: SNCKER

文章链接: https://sncker.github.io/blog/2019/07/21/Python网络爬虫-Robots协议/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 SNCKER's blog！