![Python 3 爬虫、数据清洗与可视化实战(第2版)](https://wfqqreader-1252317822.image.myqcloud.com/cover/935/32517935/b_32517935.jpg)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 数据采集的基本知识
2.1 关于爬虫的合法性
几乎每个网站都有一个名为robots.txt的文档,当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站,可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以被爬取。如果网站有robots.txt文档,就要判断是否有禁止访客获取的数据。
以某电商网站为例,如图2-1所示。该电商网站允许部分爬虫访问它的部分路径,而对于没有得到允许的用户,则全部禁止爬取,代码如下。
![img](https://epubservercos.yuewen.com/3DAE1E/17545851106441906/epubprivate/OEBPS/Images/txt002_1.jpg?sign=1738918709-7G1GF2ZXCnkCR7BwH1Ko8Lqf5HknrIbP-0-8c67cb8bca64e187816ed6a6f7250bb0)
以上代码的意思是除前面指定的爬虫外,不允许其他爬虫爬取任何数据。
![img](https://epubservercos.yuewen.com/3DAE1E/17545851106441906/epubprivate/OEBPS/Images/txt002_2.jpg?sign=1738918709-6lYxWeoA24zOsT7s0Juj5tXnmZS82Utw-0-99908f977af2d737ed82fb89c2a406d0)
图2-1