Python公开课 - 爬虫介绍

前言

什么是爬虫,爬虫其实就是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

在数据挖掘、搜索引擎中都有爬虫的身影。尤其是对于网站站长来说,对爬虫是又爱又恨。

爱的原因是由于如果爬虫不来抓取内容,网站就没办法被搜索引擎索引,用户也就没办法可以检索到。

恨的原因在于如果网站性能一般,爬虫的高并发大量抓取会消耗网站的资源,导致响应变长,甚至无法服务。

爬虫的架构

爬虫系统架构

一般来说,爬虫分为通用性爬虫和垂直爬虫,相比而言通用性爬虫技术含量会更高一些。

但不管怎么说,爬虫都会由以下几个模块组成:

  • 链接URL管理单元 - 包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL
  • 网页抓取单元 - 通过传入一个URL地址来下载网页,将网页转换成一个字符串
  • 内容抽取单元 - 将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息。
  • 调度器 - 相当于协调员,包括如何选取URL,什么时候以什么频率来抓取并将网页内容交给抽取单元
  • 应用 - 将获取的有价值的内容,如何进行展现

为什么选择Python开发爬虫

python是一门非常容易上手的解释型语言,还有大量的第三方类库,使用起来非常方便。人生苦短,快用python。

相关阅读


相关推荐
  1. 济宁市琵琶山小学
  2. 兴旺幼儿园 - 廊坊幼儿园黄页
  3. Python公开课 - 文件操作
  4. 狗熊捕鱼
  5. 成都市簇桥小学
  6. 上海市闸北区广玉兰幼儿园 - 上海幼儿园黄页
  7. 布袋和尚
  8. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  9. Python公开课 - Python中的保留关键字
  10. 重庆市渝北区宝圣东路幼儿园 - 重庆幼儿园黄页
  11. 新生儿湿疹都是什么引起的 - 育儿经验
  12. 蓬莱市第一中学(蓬莱一中)
  13. Python公开课 - PDB调试处理
  14. Python Selenium find_element_by_css_selector 如何处理多个class
  15. 南昌市湾里区第三小学
  16. 绍兴市越城区东湖镇中学
  17. 礼轻人意重
  18. 周至县教师进修学校
  19. VPS - OpenVZ主机编译代码发现内存不足的问题
  20. 广州市第一一三中学
  21. Java Web Services介绍
  22. 狮子娶妻
  23. 一文看懂限流熔断降级
  24. 泰安市宁阳实验学校
  25. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  26. 我所认识的老鼠
  27. 为虺弗摧为蛇若何
  28. 隆尧县启萌幼儿园 - 邢台幼儿园黄页
  29. 邹城市第五中学
  30. 东莞市高�逗映切⊙�
  31. 湖北将发放消费券 - 武汉新鲜事
  32. 天津市河东区智慧树幼儿园 - 天津幼儿园黄页
  33. 黄骅市常郭镇赵子札村小学
  34. 昆明市盘龙区司家营双语幼儿园(龙泉镇) - 昆明市幼儿园黄页
  35. 吉的堡双语幼儿园 - 乌鲁木齐幼儿园黄页
  36. 小黑羊和小白羊
  37. 武汉女子网上做兼职被骗六十五万
  38. 武汉动物园火烈鸟孔雀排队打疫苗
  39. 脱单!武汉的相亲角在哪你知道吗?
  40. 武汉推出越王勾践剑交通卡
  41. 幼儿园入学准备物品清单
  42. 会说话的棉花包
  43. 沈阳市铁西区腾飞街第一小学(腾飞小学)
  44. 莱州市黄山完小
  45. Python公开课 - 全文检索模块Whoosh详解(1)
  46. 湖北省黄石市第七中学
  47. 车企数字化转型(下)
  48. 北京市大兴区朱庄中学
  49. 百名网媒总编辑登上知音号欣赏武汉夜色
  50. 太原市迎泽区生态纪早教中心 - 太原幼儿园黄页
  51. 浙江省洞头县第一中学(洞头一中)
  52. 事发武汉农夫山泉矿泉水内惊现大量虫卵
  53. 武汉市蔡甸区恒银亲亲幼儿园 - 武汉幼儿园黄页
  54. 青岛春雨小学
  55. 郑州高新南流小学
  56. Python公开课 - 详解模块
  57. 武汉00后大二学妹拍视频月入七十万
  58. 深圳市福田区华新小学
  59. 鸵鸟先生和鸵鸟太太
  60. 上海市上南中学东校
  61. 可怕的鬼婆婆