【Python3 爬虫】06_robots.txt查看网站爬取限制情况-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

【Python3 爬虫】06_robots.txt查看网站爬取限制情况

阅读量：5785 次

发布时间：2019-06-18

本文共 304 字，大约阅读时间需要 1 分钟。

大多数网站都会定义robots.txt文件来限制爬虫爬去信息，我们在爬去网站之前可以使用robots.txt来查看的相关限制信息

例如：

我们以【CSDN博客】的限制信息为例子

在浏览器输入：

获取到信息如下：

从上图我们可以看出：

①该网站无论用户使用哪种代理都允许爬取

②但是当爬取/css,/images…等链接的时候是禁止的

③我们可以看到还存在一个网址Sitemap,j具体解析如下：

网站提供的Sitemap文件（即网站地图）可以帮助网站定位最新的内容，则无须爬取每一个网页，虽然Sitemap文件提供了一种爬取网站的有效方式，但是我们仍然需要对其谨慎处理，因为该文件经常存在缺失,过期和不完整。

转载地址：http://ivvyx.baihongyu.com/

你可能感兴趣的文章

HDU 4251 The Famous ICPC Team Again

《Javascript高级程序设计》阅读记录（五）：第六章上

单例模式的常见写法

页游战斗系统总结

java.lang.Integer.toHexString(b[n] & 0XFF)中0XFF使用的必要性

Javascript中表达式和语句的区别

.resx文件与.cs文件的自动匹配

Unity3D中的AI架构模型

6.转换器和格式化

观察力训练（福尔摩斯演绎法）

高效统计Oracle数据表条数

[转载]深入理解Java 8 Lambda

Office Communicator 2007 Get Start

HTTP之referer（网上搜集）

内网使用 IPV6 之Teredo篇

[转］ webpack debug in webstorm

一步一步重写 CodeIgniter 框架 (6) —— 实现在控制器Controller中加载View

【BZOJ3191】【JLOI2013】卡牌游戏 [DP]

图解SQL的Join(转)

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-21 12:45:19 当前IP: 3.135.218.90 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我