Robots协议
Robots Exclusion Standard,网络爬虫排除标准
这东西搁以前我觉得就是放屁,但是看着一些圈子内的大佬莫名失踪(网安)自己着实对网络法规产生了敬畏。
总的来说,Robots协议是建议,遵不遵守看个人,当不遵守时就会存在法律风险。
当然,网站就是为了提供服务的,像新闻这种本来就是给人看的,一个人十秒钟浏览一次,爬虫也可以如此。
所以原则就是:类人行为可不参考Robots协议。
附表:
目的 |
遵守建议 |
爬取网页 |
访问量小:可以遵守 访问量大:建议遵守 |
爬取系列网站 |
非商业且偶尔:建议遵守 商业利益:必须遵守 |
爬取全网 |
必须遵守 |