Python 爬虫是什么

子凡 2018-12-28 11:04:08

Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

Python 爬虫即使用 Python 程序开发的网络爬虫（网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取 web 页面上自己想要的数据，也就是自动抓取数据。

Python 爬虫

Python 爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL 管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的 CPU，主要负责调度 URL 管理器、下载器、解析器之间的协调工作。
URL 管理器：包括待爬取的 URL 地址和已爬取的 URL 地址，防止重复抓取 URL 和循环抓取 URL，实现 URL 管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。
网页下载器：通过传入一个 URL 地址来下载网页，将网页转换成一个字符串，网页下载器有 urllib2（Python 官方基础模块）包括需要登录、代理、和 cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据 DOM 树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python 自带的）、beautifulsoup（第三方插件，可以使用 Python 自带的 html.parser 进行解析，也可以使用 lxml 进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。