详解Tesseract之安装及基本使用

前言

现在图像识别技术非常普遍,各大云厂商也都提供了对应的OCR服务,同时随着5G的发展,对图像的识别和处理也会产生更多的应用场景。

Tesseract之安装及基本使用

什么是OCR

OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

Tesseract基本介绍

Tesseract,是一款由HP实验室开发并由Google维护的开源OCR引擎。

它是基于Apache许可证的自由软件,自2006 年起由Google赞助开发。在2006年,Tesseract被认为是最精准的开源光学字符识别引擎之一。

Ubuntu下Tesseract安装

在ubuntu环境下安装非常简单,只需要一行命令:

sudo apt install tesseract-ocr

tesseract安装

安装完毕后,你可以通过tesseract --version命令行来确认版本信息

tesscert版本

当然现在最新的已经是4.0了, 如果想使用v4.0, 可以按照以下办法来安装:

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update 
sudo apt-get install tesseract-ocr 

默认语言包是英语,当然你如果需要识别中文,则需要安装对应的中文语言包

#简体中文
sudo apt-get install tesseract-ocr-chi-sim  
#繁体中文
sudo apt-get install tesseract-ocr-chi-tra

也可以从Tesseract数据目录下载,放到Tesseract-OCR项目的tessdata文件夹里面。

Tesseract命令行参数

我们先通过tesseract --help-extra看看帮助说明,

tesseract帮助

-v, --version

查看当前版本

--list-langs

查看有哪些可用的 "语言"

识别命令

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

参数说明:

参数名称 说明
imagename 图片文件
outputbase 输出文件,也可以选择命令行输出stdout

-psm说明:

  • 0 方向和脚本检测(OSD)
  • 1 使用OSD自动分页
  • 2 自动分页,但没有OSD或OCR
  • 3 全自动页面分割,但没有OSD(默认)
  • 4 假设一列可变大小的文本
  • 5 假定一个统一的垂直排列文本块
  • 6 假设一个统一的文本块
  • 7 将图像视为单个文本行
  • 8 将图像视为一个单词
  • 9 将图像视为一个圆圈中的单个单词
  • 10 将图像视为单个字符

注意:在4.0多增加了三个参数选项

Tesseract实际使用

我们以兔子先生的一个测试图片为例子:

Tesseract测试图片

通过命令行执行:

tesseract test.jpg result --psm 4 -l chi_sim

查看reslut.txt文件

发现可以正常识别

Tesseract识别结果

遇到的坑

问题1 Ubuntu无法找到add-apt-repository

root@vps:~# add-apt-repository ppa:alex-p/tesseract-ocr
-bash: add-apt-repository: 未找到命令

原因:

当前环境需要安装python-software-properties

解决办法:

apt-get install python-software-properties
apt-get install software-properties-common

问题2 Tesseract无法安装中文

root@vps:~# sudo apt-get install tesseract-ocr-chi_sim
正在读取软件包列表... 完成
正在分析软件包的依赖关系树
正在读取状态信息... 完成
E: 无法定位软件包 tesseract-ocr-chi_sim

原因:

被github上的说明给误导了,tesseract-ocr-chi_sim不是正确的名称。

解决办法

改为tesseract-ocr-chi-sim

sudo apt-get install tesseract-ocr-chi-sim

参考资料


相关主题:
相关推荐
  1. 上海市奉贤区弘文学校(中学部)
  2. 昆明粤秀中学
  3. 黑乌鸦
  4. 武汉一女子七天被骗220万
  5. 韶关市武江区西联小学
  6. 福山区西关小学
  7. 印度视频应用Vmate获得阿里一亿风投
  8. 北京文承少年军校
  9. Python公开课 - 标准库queue基本使用
  10. 中山大学附属中学三水实验学校
  11. 熊妈妈变开心了
  12. 常州市香江华廷 小学
  13. Python公开课 - 数据抓取之Ajax
  14. 百名网媒总编辑登上知音号欣赏武汉夜色
  15. 中秋节习俗
  16. 武汉推出越王勾践剑交通卡
  17. 四川省眉山第一中学(眉山一中)
  18. 沧州市南皮县红太阳幼儿园 - 沧州幼儿园黄页
  19. 提高网站加载速度 - Nginx配置开启Gzip
  20. 月亮为什么害羞?
  21. 广州市白云区快乐宝贝现代幼儿园 - 广州幼儿园黄页
  22. 流转万里的花
  23. 南京市清水亭学校小学部
  24. 汕头市新津中学
  25. 垦利县胜坨镇三海小学
  26. 上海市浦东新区浦南幼儿园(陆家嘴校区) - 上海幼儿园黄页
  27. 天津市大港区桃李园小学
  28. 天使的朋友
  29. 天津市津南区北闸口村西右营村
  30. 广州市南沙区三区幼儿园 - 广州幼儿园黄页
  31. 客店老板偷金币
  32. 北京市海淀外国语实验学校小学文体特长班
  33. 如何正确升级pip3
  34. 断奶排产乳发烧咋办 - 育儿经验
  35. 艺艺幼儿园 - 哈尔滨幼儿园黄页
  36. 田单的火牛阵
  37. 苏州市昆山市秀峰中学
  38. 宁波市第四中学
  39. 湖北将发放消费券 - 武汉新鲜事
  40. 佛山市顺德区勒流大晚小学
  41. 武汉女子网上做兼职被骗六十五万
  42. 央媒聚焦!国庆假期173.78万人次打卡大美黄陂
  43. 警方通报:武汉男子持刀至五死一伤,嫌犯已跳桥
  44. 新手入门选择Python2还是Python3
  45. Ads.txt是什么
  46. 勇敢的小刺猬
  47. ImageMagick给图像去噪
  48. 武汉动物园火烈鸟孔雀排队打疫苗
  49. 南宁市西乡塘区智慧树幼儿园 - 南宁幼儿园黄页
  50. 智斗大灰狼
  51. 重庆市巴南区清华小学附属幼儿园 - 重庆幼儿园黄页
  52. 昌平区前锋学校
  53. 东棘坨镇小芦中心小学
  54. maven中<parent>标签作用
  55. 幼儿园入学准备物品清单
  56. 深圳市光明新区实验学校(原公明实验学校)
  57. 宝宝眼睛红血丝的原因 - 育儿经验
  58. 事发武汉农夫山泉矿泉水内惊现大量虫卵
  59. 大连市甘井子区慧童辅教园 - 大连幼儿园黄页
  60. 脱单!武汉的相亲角在哪你知道吗?
  61. 古韵南京 - 二日游