实战Python网络爬虫
上QQ阅读APP看书,第一时间看更新

1.6 本章小结

网络爬虫的类型理论上分为4类,但实际上主要是两大类:通用爬虫和聚焦爬虫。通用爬虫主要有Google、百度、必应等搜索引擎,主要以核心算法为主导,学习成本相对较高。聚焦爬虫就是定向爬取数据,是有目的性的爬虫,学习成本相对较低。

我们常说的网络爬虫大多数以聚焦爬虫为主,其原理和过程与通用爬虫大致相同,读者在编写爬虫程序的时候,需要以设定的爬虫规则和爬取目标为主导,这样更具较强的目的性。

网络爬虫在大多数情况下都不会违法,在生活中几乎都有爬虫应用,比如在百度中搜索的内容几乎都是通过爬虫采集下来的,因此网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下可以放心使用爬虫技术。当然也有特殊情况,正如水果刀本身在法律上并不被禁止使用,但是用来伤害他人,这就触犯了法律规则。

既然爬虫技术是合法的,那么,我们有必要了解爬虫的开发流程。只有掌握开发流程,才能编写高质的爬虫程序,这好比盖房子一样,建筑施工人员需要根据房屋设计图才能搭建房子,而房屋设计图等同于爬虫的开发流程。