GitHub 宣布私有代码库完全免费 - 赶紧体验

前言 用了GitHub好久,对于私有仓库,GitHub之前的态度是要收费的,而且是使用美刀来计算,并不便宜。 正因为此,对于私有代码,可以选择Gitlab来进行管理。 但是,但是,自从GitHub被微软收购后,开始改变了 GitHub 宣布私有代码库完全免费 规则如下: Gi...

Python Selenium find_element_by_css_selector 如何处理多个class

前言 Selenium是一个用于Web应用程序测试的工具,也可以在网页爬虫中使用。Selenium直接运行在浏览器中,就像真正的用户在操作一样。 支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。...

Python公开课 - 页面解析之Beautiful Soup

前言 Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 同时可以自动将输入文档转换为Unicode编码,输出文档转换为UT...

Javascript和Java的关系

前言 经常会有些小白同学会问这样的问题 Javascript是java的一种么? Java是不是包含Javascript呢? 这类问题,不仅在国内的知乎问答上,在国外stackoverflow.com上也会出现类似的问题。 那么Java和Javascript到底是什么关系呢? ...

XPath常用函数整理总结

前言 XPath是W3C的一个标准。它最主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和XPath2.0两个版本。其中Xpath1.0是1999年成为W3C标准,而XPath2.0标准的确立是在2007年。 XPath是一种表达式语言,它的返...

Python公开课 - 页面解析之XPath

前言 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。 XPath最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。所以在做爬虫时,可以使用...

Vim - 基础教程

前言 用过Linux的人无不知道Vim,其被称作“编辑器之神”,与另一个“神的编辑器” EMACS 一直并列文本编辑器两大无可替代的“神器”之位。 Vim具有入门易、深入难的特点,熟练者爱它爱的要死,入门者却觉得极其难用。 很多人在Linux下编辑一个文本文件,就可能被vim给难住了。 ...

Python公开课 - Requests高级功能

前言 在上一章节我们对requests库的基本功能进行了介绍,当然request在处理会话,https等方面也非常方便。 文件上传 我们知道 requests 可以模拟提交一些数据。 假如有的网站需要上传文件,我们也可以用它来实现, 这非常简单,示例如下: import request...

Django项目中添加robots.txt的四种方法

前言 robots.txt是用来告诉爬虫,哪些资源可以抓取,哪些不能抓取。对于一个网站来说非常常见。 例如http://www.taobao.com/robots.txt User-agent: Baiduspider Allow: /article Allow: /oshtml ...

Python公开课 - Requests基本功能

前言 Python自带的库也可以进行网络访问,但是有很多不方便的地方,相比而言requests在这个方面非常强大,有了它,Cookies、登录验证、代理设置等操作都不是事儿。 发送请求 见示例: >>> import requests >>> r =...