Python公开课 - 爬虫之代理

前言 我们写爬虫程序,如果不做任何措施去抓取网站数据的话,一旦网站采取了反爬虫的措施,就会导致我们无法正常下载。 例如最初爬虫正常运行,正常抓取数据,一切看起来都很正常,然而一支烟的功夫可能就会出现错误,比如 403 Forbidden, 服务器会检测某个IP在单位时间内的请求次数,如...

Python公开课 - 爬虫之session和cookies

前言 在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问 ,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。 还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效。 这其中的原理就涉及到session和cookie。 ...

Centos7中配置 Putty免密码登录

1. 本地下载putty http://www.putty.org/ 2. 通过PuTTYgen 生成公钥和私钥 3. 登录Centos 将公钥导入到文件authroized_keys中 authorized_keys在 .ssh/目录下,如果不存在则自行创建 4. 配置.s...

Python公开课 - 爬虫基本原理

前言 网络爬虫就是顺着互联网这个网,按照一定规则去抓取网上的资源。 简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。 基础技术 抓取数据 爬虫的任务就是抓取数据,根据提供的URL地址,来抓取网页。 其中最关键的部分就是构造一个请求并发送给服务器,然后接收到响应并将其解析出来...

Python公开课 - 爬虫之网页结构

前言 对于HTTP爬虫来说,很多情况下都是和网页打交道,所以我们需要先了解下网页结构。 网页的组成 网页可以分为三大部分: HTML, CSS 和 JavaScript。 三个组合形成了丰富的HTML页面。 HTML定义了网页的内容和结构, css描述了网页的布局,JavaScript定...

Python公开课 - 爬虫之HTTP基础

前言 由于目前互联网上HTTP协议的普遍性,所以我们写爬虫一般都会和HTTP协议打交道,当然也有其他协议的爬虫,如磁力链爬虫等则是处理另外的协议了。 URL URL的全称是 Universal Resource Locator,即统一资源定位符。如果大家讲互联网理解为一个操作系统,那么互...

Python公开课 - 爬虫介绍

前言 什么是爬虫,爬虫其实就是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。 在数据挖掘、搜索引擎中都有爬虫的身影。尤其是对于网站站长来说,对爬虫是又爱又恨。 爱的原因是由于如果爬虫不来抓取内容,网站就没办法被搜索引擎索引,用户也就没办法可以检索到。 恨的原因在于如...

Python爬虫教程

Python爬虫基础 爬虫介绍 HTTP基础 网页结构 基本原理 session和cookies 代理 技术原理 Requests基本功能 Requests高级功能 页面解析之XPath 页面解析之Beautiful Soup 页面解析之pyquery 数据抓取之Ajax 数据抓取...

Python公开课 - 正则表达式

前言 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及...

Python公开课 - 网络编程

前言 现在做项目一般都会涉及到网络编程,例如做分布式项目,模块间的彼此调用会用到rest接口,web开发则会涉及到基础的http、https知识。 Python在网络编程这方面,使用起来非常方便。有标准的库可以直接用,也有第三方的强大完善的框架,这些都会在其他章节中进行介绍。 网络模型 ...