详解Tesseract之安装及基本使用

前言

现在图像识别技术非常普遍，各大云厂商也都提供了对应的OCR服务，同时随着5G的发展，对图像的识别和处理也会产生更多的应用场景。

Tesseract之安装及基本使用

什么是OCR

OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

Tesseract基本介绍

Tesseract，是一款由HP实验室开发并由Google维护的开源OCR引擎。

它是基于Apache许可证的自由软件，自2006 年起由Google赞助开发。在2006年，Tesseract被认为是最精准的开源光学字符识别引擎之一。

Ubuntu下Tesseract安装

在ubuntu环境下安装非常简单，只需要一行命令：

sudo apt install tesseract-ocr

tesseract安装

安装完毕后，你可以通过tesseract --version命令行来确认版本信息

tesscert版本

当然现在最新的已经是4.0了, 如果想使用v4.0, 可以按照以下办法来安装：

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update 
sudo apt-get install tesseract-ocr

默认语言包是英语，当然你如果需要识别中文，则需要安装对应的中文语言包

#简体中文
sudo apt-get install tesseract-ocr-chi-sim  
#繁体中文
sudo apt-get install tesseract-ocr-chi-tra

也可以从Tesseract数据目录下载，放到Tesseract-OCR项目的tessdata文件夹里面。

Tesseract命令行参数

我们先通过tesseract --help-extra看看帮助说明，

tesseract帮助

-v, --version

查看当前版本

--list-langs

查看有哪些可用的 "语言"

识别命令

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

参数说明：

参数名称	说明
imagename	图片文件
outputbase	输出文件，也可以选择命令行输出stdout

-psm说明：

0 方向和脚本检测（OSD）
1 使用OSD自动分页
2 自动分页，但没有OSD或OCR
3 全自动页面分割，但没有OSD（默认）
4 假设一列可变大小的文本
5 假定一个统一的垂直排列文本块
6 假设一个统一的文本块
7 将图像视为单个文本行
8 将图像视为一个单词
9 将图像视为一个圆圈中的单个单词
10 将图像视为单个字符

注意：在4.0多增加了三个参数选项

Tesseract实际使用

我们以兔子先生的一个测试图片为例子：

Tesseract测试图片

通过命令行执行：

tesseract test.jpg result --psm 4 -l chi_sim

查看reslut.txt文件

发现可以正常识别

Tesseract识别结果

遇到的坑

问题1 Ubuntu无法找到add-apt-repository

root@vps:~# add-apt-repository ppa:alex-p/tesseract-ocr
-bash: add-apt-repository: 未找到命令

原因：

当前环境需要安装python-software-properties

解决办法：

apt-get install python-software-properties
apt-get install software-properties-common

问题2 Tesseract无法安装中文

root@vps:~# sudo apt-get install tesseract-ocr-chi_sim
正在读取软件包列表... 完成
正在分析软件包的依赖关系树
正在读取状态信息... 完成
E: 无法定位软件包 tesseract-ocr-chi_sim

原因：

被github上的说明给误导了，tesseract-ocr-chi_sim不是正确的名称。

解决办法：

改为tesseract-ocr-chi-sim

sudo apt-get install tesseract-ocr-chi-sim

参考资料

Tesseract Github Portal

前言