Python公开课 - 爬虫之网页结构

前言

对于HTTP爬虫来说,很多情况下都是和网页打交道,所以我们需要先了解下网页结构。

网页的组成

网页可以分为三大部分: HTML, CSS 和 JavaScript。 三个组合形成了丰富的HTML页面。 HTML定义了网页的内容和结构, css描述了网页的布局,JavaScript定义了网页的行为。

HTML

HTML 是用来描述网页的一种语言, 其全称叫作 Hyper Text Markup Language,即超文本标记语言。 网页包括文字、按钮、图片和视频等各种复杂的元素,其基础架构就是 HTML。

不同类型的文字 通过不同类型的标签来表示,如图片用 img 标签表示,视频用 video 标签表示,段落用 p 标签表示,它们之间的布局又常通过布局标签 div 嵌套组合而戚,各种标签通过不同的排列和嵌套才形成了网页的框架。

css

css,全称叫作 Cascading Style Sheets,即层叠样式表。

HTML定义了网页的结构,但是只有HTML 页面的布局并不美观,可能只是简单的节点元素的排列。

为了让网页看起来更好看一些,这里借助了css。层叠是指当在 HTML 中引用了数个样式文件,并且样式发生冲突时,浏览器能依据层叠顺序处理。

样式指网页中文字大小、 颜色、元素间距、排列等格式。

css 是目前唯一的网页页面排版样式标准,有了它的帮助,页面才会变得更为美观。

JavaScript

JavaScript,简称 JS,是一种脚本语言。

HTML 和 css 配合使用, 提供给用户的只是一种静态信息,缺乏交互性。页面的动态效果就依赖Javascript了。

它的出现使得用户与信息之间不只是一种浏览与显示的关系,而是实 现了一种实时、动态、交互的页面功能。

网页的结构

先看一个例子

  <html> 
    <head> 
      <meta charset="UTF-8"> 
      <title>This is a Demo</title> 
    </head> 
    <body> 
      <div id=”container”> 
        <div>
          <h2 class=”title”>Hello World</h2> 
          <p class=”text”>Hello, this is a paragraph.</p>
        </div> 
       </div> 
     </body> 
  </html> 
  • title标签 - 定义了网页的标题,会显示在网页的选项卡中,不会显示在正文中。
  • body标签 - 是在网页正文中显示的内容。
  • div标签 - 定义了网页中的区块,id 的内容在网页中是唯一的,我们可以通过它来获取这个区块。

一个网页的标准形式是 html 标签内嵌套 head 和 body 标签,head 内定义网页的配置和引用,body内定义网页的正文。

小结

HTML页面标签很丰富,爬虫也需要可以识别并处理这些标签,这样才更得到有价值的信息。

相关阅读


相关推荐
  1. 张家口市尚义县八道沟中学
  2. 铁杵成针
  3. 金蜡烛
  4. 天津市南开区鸿源里小学
  5. 小蜗牛亲月亮
  6. 上海市浦东新区凌兆小学
  7. 脱单!武汉的相亲角在哪你知道吗?
  8. 给网站加上永久免费SSL的证书
  9. 寂寞的树
  10. ImageMagick给图像去噪
  11. 济宁市枣店阁小学
  12. 眉间尺
  13. Python公开课 - 文件操作
  14. 德州一村小学
  15. 贵阳市白云区车辆厂幼儿园 - 贵阳市幼儿园黄页
  16. 天津市渔阳镇仓上屯中心小学
  17. 深圳宝安新安中学初中部
  18. 武汉市硚口区添添艺术幼儿园 - 武汉幼儿园黄页
  19. 神童睿智二园 - 哈尔滨幼儿园黄页
  20. 易中天给英雄武汉的一首诗 - 武汉新鲜事
  21. 百名网媒总编辑登上知音号欣赏武汉夜色
  22. 如坐针毡
  23. 临沂市第二实验小学(临沂二小)
  24. Python的起源 - 二十年前的故事
  25. 南京市第三初级中学
  26. 武汉动物园火烈鸟孔雀排队打疫苗
  27. 咸阳市渭城区智慧园启蒙教育中心 - 咸阳市幼儿园黄页
  28. 奥迪客户不满加价,被武汉4S店销售群殴
  29. Python公开课 - 标准库Thread详解
  30. 丰乐公办中心幼儿园 - 成都市幼儿园黄页
  31. 武汉00后大二学妹拍视频月入七十万
  32. 广饶县广饶镇花园学校
  33. 深圳市桂园小学
  34. 提高网站加载速度 - Nginx配置开启Gzip
  35. 悬崖上的树
  36. 长春市绿园区小豆豆国际艺术幼儿园 - 长春幼儿园黄页
  37. Python库使用教程
  38. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  39. 【读书】QBQ! 问题背后的问题 - 附下载地址
  40. 武汉一女子七天被骗220万
  41. 宠物猪
  42. 邯郸市第十中学
  43. 日照市金海岸小学
  44. 重庆一中寄宿(重庆一中渝北校区)
  45. 浙江江山中学
  46. 事发武汉农夫山泉矿泉水内惊现大量虫卵
  47. 幼儿园入学准备物品清单
  48. 温州仙稔乡中心校
  49. 小脚丫文化艺术幼儿园 - 保定幼儿园黄页
  50. 武安市第三中学
  51. 辽宁省鞍山市立山区未来之星幼稚园 - 鞍山幼儿园黄页
  52. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  53. 广州市增城区新星幼儿园(沙园街) - 广州幼儿园黄页
  54. 沈阳市铁西区童馨幼儿园(爱工北街) - 沈阳幼儿园黄页
  55. 明溪一中
  56. 花蝴蝶
  57. Python基础教程 - 从零开始学Python
  58. 青蛙飞天
  59. 上海市闵行区昆阳路小学
  60. Python+Selenium基本操作获取当前页面URL
  61. 湖北黄石市沿湖路小学