技术破解钉钉打卡考勤 - 上班族专用完整解决方案

1. 需求背景 钉钉在企业市场的推广非常不错,其中打卡考勤是使用多也最为频繁的一项功能,同时也最有争议性: 对于企业老板来说,通过这种方式他可以非常清楚的了解自己的员工出勤情况,是否按时上下班,有没有偷懒,可以通过后台数据直观的看到。 而对于对于员工来说,则相反,以入网WI-FI或位置定...

Python公开课 - 爬虫识别图像验证码

前言 目前,对于爬虫的反爬技术也很多,除了封禁IP以外验证码技术也是一个有效的方式来确保是人而不是程序在访问网站,并且随着技术的发展, 验证码的花样越来越多。 字符验证码 字符验证码是比较普遍的方式,一般是四位字母或者数字组成,在中小网站中非常常见。 例如在Django项目中,引入d...

如何通过训练提高Tesseract OCR验证码识别率

1. 前言 Tesseract 4.00包含一个新的基于神经网络的识别引擎,该引擎(在文档图像上)的准确率显著高于以前的版本,从而显著提高了所需的计算能力,同时神经网络需要大量的训练数据。 2. 训练过程 对于Tesseract来说,训练过程主要是以下步骤: Prepare trai...

提高Tesseract文字识别率的三种方法

前言 有各种原因会导致Tesseract文字识别率不高。这里介绍了一些基本操作,能够帮助你显著提高识别精度。 但是如果你要识别的图像是一个并不常用的字体,或者是一个新的语言,那么就必须要训练才行。 方法一 图像预处理 Tesseract在执行OCR之前已经在内部先进行了各种图像处理...

ImageMagick给图像去噪

什么是图像噪声 图像噪声是指存在于图像数据中的不必要的或多余的干扰信息。噪声的存在严重影响了遥感图像的质量,因此在图像增强处理和分类处理之前,必须予以纠正。 图像中各种妨碍人们对其信息接受的因素即可称为图像噪声 。噪声在理论上可以定义为“不可预测,只能用概率统计方法来认识的随机误差”。 ...

ImageMagick将图像转换为300dpi的两种方式

什么是DPI DPI是英文Dots Per Inch的缩写,意为点每英寸。它和分辨率一起工作来展现图像。 一般来说: 相同的分辨率,更高的DPI表现为物理尺寸更小 - 这个很好理解,同样多的像素点,由于DPI高,所以需要的物理尺寸更少。 物理尺寸相同,DPI较低表现为较低的分辨率 ...

图像处理工具ImageMagick - 灰度化和二值化

ImageMagick基本介绍 ImageMagick是一款可以创建,编辑,合成,或转换图像的命令行工具。支持200多种的图像格式,常见的如PNG,JPEG,GIF,HEIC,TIFF,DPX,EXR,WebP,Postscript,PDF和SVG等。 同时也可以使用ImageMagick...

详解Tesseract之安装及基本使用

前言 现在图像识别技术非常普遍,各大云厂商也都提供了对应的OCR服务,同时随着5G的发展,对图像的识别和处理也会产生更多的应用场景。 什么是OCR OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、...

Ads.txt是什么

前言 这几天查看网站的后台访问记录,发现有谷歌爬虫有这样一条访问记录: 66.249.73.89 - - [23/Jan/2019:23:50:03 -0500] "GET /ads.txt HTTP/1.1" 404 1040 "-" "Mozilla/5.0 (compat...

Selenium Chrome WebDriver配置代理访问的两种方式

前言 开发爬虫程序,如果不做代理设置,本机的外网IP很容易被网站封掉,导致不能持续进行数据抓取。 而Selenium作为动态网页抓取的利器,我们有必要了解一下,如果对它进行代理设置,并正常访问网页。 方法一 add_argument()方式 示例代码如下: from sel...