Python公开课 - 爬虫基本原理

前言

网络爬虫就是顺着互联网这个网,按照一定规则去抓取网上的资源。

简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。

基础技术

抓取数据

爬虫的任务就是抓取数据,根据提供的URL地址,来抓取网页。

其中最关键的部分就是构造一个请求并发送给服务器,然后接收到响应并将其解析出来。

提取信息

获取网页HTML内容或者JSON数据后,接下来就是分析,从中提取我们想要的数据。

通用的且简单的方法便是采用正则表达式提取,这是一个万能的方法,但是在构造正则表达式时比较复杂且容易出错。

另外,由于网页的结构有一定的规则,所以还有一些根据网页节点属性、 css 选择器或 XPath来 提取网页信息的库,如 Beautiful Soup、pyquery、lxml 等。使用这些库,我们可以高效快速地从中提 取网页信息。

保存数据

当将非结构化的网页数据抽取成结构化的数据后,需要保存到某处以便后续使用。

这里保存形式有多种多样, 如可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库等。

调度器

调度器就是自动化控制上述步骤,让爬虫可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取 持续高效地运行。

小结

Python提供了非常丰富的库可以完成以上操作,包括requests, re, Beautiful Soup等,可以提高爬虫的开发效率。

相关阅读


相关推荐
  1. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  2. 武汉00后大二学妹拍视频月入七十万
  3. Python公开课 - Appium安装
  4. 小鼹鼠要睡觉
  5. 上海市红旗幼托所 - 上海幼儿园黄页
  6. 东莞市塘厦镇林村小学
  7. 早产儿贫血有什么症状 - 育儿经验
  8. 吉林省长春市绿园区未来之星幼儿园 - 长春幼儿园黄页
  9. 青岛市崂山区西韩小学
  10. 韶关市新丰县回龙中学
  11. 遵义市习水县东城幼儿园 - 遵义市幼儿园黄页
  12. 无锡市胡埭中心小学
  13. 两块石头
  14. 除夕和过年的来历
  15. 武汉女子网上做兼职被骗六十五万
  16. 百名网媒总编辑登上知音号欣赏武汉夜色
  17. 北京市怀柔区九渡河镇中心小学
  18. 三明二中
  19. 婴儿吃维c的好处有哪些 - 育儿经验
  20. 武汉动物园火烈鸟孔雀排队打疫苗
  21. 上海长宁区新虹桥小学
  22. 鸡妈妈和小鸭子
  23. 北京市朝阳区永安里小学
  24. 贝哈哈博士的假牙
  25. Python爬虫教程
  26. 睡鼠的睡梦时光
  27. 大连市甘井子区宋家幼儿园 - 大连幼儿园黄页
  28. 西安市临潼区骊华幼儿园 - 西安幼儿园黄页
  29. synchronized与lock的区别 - 阿里技术面试
  30. 35周孩子体重多少正常 - 育儿经验
  31. 云南省昆明市西山区中轻依兰集团公司幼儿园 - 昆明市幼儿园黄页
  32. 事发武汉农夫山泉矿泉水内惊现大量虫卵
  33. 长沙百熙实验学校
  34. Python公开课 - 多线程使用
  35. 如何为Ubuntu Server安装图形化界面
  36. 周浦镇育才学校
  37. 泰州中学附属初级中学
  38. 韶关市南雄市黎灿小学
  39. 杭州市第七中学(杭州七中)
  40. 脱单!武汉的相亲角在哪你知道吗?
  41. Python公开课 - 全文检索模块Whoosh详解(3)
  42. Python语言的优点和缺点 - 深度剖析
  43. 广州市南沙区万安幼儿园 - 广州幼儿园黄页
  44. 河北保定清苑世纪中学
  45. 郑州市第二外国语学校
  46. Python公开课 - 语法基础
  47. 北大附中实验学校(北达资源中学)
  48. Python公开课 - 数据抓取之Ajax
  49. 开平第四中学
  50. "闭月"的美人貂蝉
  51. 蚯蚓的评判
  52. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  53. 不负责任的小象
  54. 无锡市洛社镇花渡小学
  55. Python公开课 - 页面解析之pyquery
  56. 武汉推出越王勾践剑交通卡
  57. 小狐狸朵拉
  58. 济南市长清区龙泉小学
  59. 武汉一女子七天被骗220万
  60. 峰峰矿区河泉小学