Python公开课 - 爬虫基本原理

前言

网络爬虫就是顺着互联网这个网,按照一定规则去抓取网上的资源。

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

基础技术

抓取数据

爬虫的任务就是抓取数据,根据提供的URL地址,来抓取网页。

其中最关键的部分就是构造一个请求并发送给服务器,然后接收到响应并将其解析出来。

提取信息

获取网页HTML内容或者JSON数据后,接下来就是分析,从中提取我们想要的数据。

通用的且简单的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。

另外,由于网页的结构有一定的规则,所以还有一些根据网页节点属性、 css 选择器或 XPath来 提取网页信息的库,如 Beautiful Soup、pyquery、lxml 等。使用这些库,我们可以高效快速地从中提 取网页信息。

保存数据

当将非结构化的网页数据抽取成结构化的数据后,需要保存到某处以便后续使用。

这里保存形式有多种多样, 如可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库等。

调度器

调度器就是自动化控制上述步骤,让爬虫可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取 持续高效地运行。

小结

Python提供了非常丰富的库可以完成以上操作,包括requests, re, Beautiful Soup等,可以提高爬虫的开发效率。

相关阅读

展开剩余53%