博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Python3 爬虫】06_robots.txt查看网站爬取限制情况
阅读量:5785 次
发布时间:2019-06-18

本文共 304 字,大约阅读时间需要 1 分钟。

大多数网站都会定义robots.txt文件来限制爬虫爬去信息,我们在爬去网站之前可以使用robots.txt来查看的相关限制信息

例如:

我们以【CSDN博客】的限制信息为例子

在浏览器输入:

获取到信息如下:

从上图我们可以看出:

①该网站无论用户使用哪种代理都允许爬取

②但是当爬取/css,/images…等链接的时候是禁止的

③我们可以看到还存在一个网址Sitemap,j具体解析如下:

   网站提供的Sitemap文件(即网站地图)可以帮助网站定位最新的内容,则无须爬取每一个网页,虽然Sitemap文件提供了一种爬取网站的有效方式,但是我们仍然需要对其谨慎处理,因为该文件经常存在缺失,过期和不完整。

转载地址:http://ivvyx.baihongyu.com/

你可能感兴趣的文章
HDU 4251 The Famous ICPC Team Again
查看>>
《Javascript高级程序设计》阅读记录(五):第六章 上
查看>>
单例模式的常见写法
查看>>
2019.2.13 SW
查看>>
页游战斗系统总结
查看>>
java.lang.Integer.toHexString(b[n] & 0XFF)中0XFF使用的必要性
查看>>
Javascript中表达式和语句的区别
查看>>
.resx文件与.cs文件的自动匹配
查看>>
Unity3D中的AI架构模型
查看>>
6.转换器和格式化
查看>>
观察力训练(福尔摩斯演绎法)
查看>>
高效统计Oracle数据表条数
查看>>
[转载]深入理解Java 8 Lambda
查看>>
Office Communicator 2007 Get Start
查看>>
HTTP之referer(网上搜集)
查看>>
内网使用 IPV6 之Teredo篇
查看>>
[转] webpack debug in webstorm
查看>>
一步一步重写 CodeIgniter 框架 (6) —— 实现在控制器Controller中加载View
查看>>
【BZOJ3191】【JLOI2013】卡牌游戏 [DP]
查看>>
图解SQL的Join(转)
查看>>