Java OCR tesseract 图像智能字符识别技术

标签: java ocr tesseract | 发表时间:2014-04-18 04:21 | 作者:lmj623565791
出处:http://blog.csdn.net

公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的(OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享。

本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈

下载好程序后解压:

大概可以看到这样一个目录,别见怪楼主里面一堆测试文件。

然后就开始我们的测试之旅:

tesseract的用法:

参数1:需要识别的文件

参数2:输出的文件名称,输出的是文本文件,里面保存了识别的信息

识别英文这两个参数就可以了,下面做个实验:

我们在命令行输入:tesseract 5.jpg 6 ,可以看到程序生成了一个6.txt ,里面保存着识别后的文本,怎么样简单又给力~


上面说道tesseract 是支持中文的,所以么,接下来看看如何使用tesseract 实现我们中文的识别,下面继续介绍其他参数

参数3:-l

参数4: 使用的语言库

参数3 -l应该是知道参数4所使用的语言库,默认英文,也就是为什么上面识别英文的例子,并没有输入参数3和参数4,也实现了识别。

下面继续我们的实验:

我们准备了一张图片,然后使用tesseract zhongwen.jpg  7  -l chi_sim 指明了中文语言,然后效果图上,还是很不错的,毕竟我们的中文是如此的博大精深,并且tesseract可以经过训练,然后识字的能力就会大幅度提升。

好了,由于一行代码没写,就不上传代码了,大家自己去官网下载。接下来我会使用Java带大家实现这样的小程序。


如果这篇文章对你有用,就赞一个~欢迎大家留言,多交流~






作者:lmj623565791 发表于2014-4-17 20:21:58 原文链接
阅读:127 评论:1 查看评论

相关 [java ocr tesseract] 推荐:

Java OCR tesseract 图像智能字符识别技术

- - CSDN博客互联网推荐文章
公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的(OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享. 本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈.

android 端拍照并运用Tesseract OCR 识别图片中字符

- - 移动开发 - ITeye博客
我上传了一个android studio环境下的例子,可以拍照或者选择图库中图片进行识别. 这个链接()包括一份工程源代码和 两个压缩包(语言包),一个是中文汉字,一个是英文. 必须现在手机内部存储根目录. (在程序中获取这个字符串就明白这个目录是什么了Environment.getExternalStorageDirectory()).

Adrian小哥教程:如何使用Tesseract和OpenCV执行OCR和文本识别

- - 机器之心
近期,Adrian Rosebrock 发布一篇教程,介绍了如何使用 OpenCV、Python 和 Tesseract 执行文本检测和文本识别. 从安装软件和环境、项目流程、review 代码、实验结果,到展示局限、提出建议,这篇教程可以说十分详细了. 机器之心对该教程进行了摘要编译介绍. 本教程将介绍如何使用 OpenCV OCR.

iOS上的OCR软件TextGrabber

- Webto - 大鱼若智,大智若鱼
就在我写完上一篇关于读书笔记的Blog之后,我迅速而及时地发现了一款OCR大厂的产品. 昨天我闲来无事在App Store里闲逛,忽然发现了ABBYY(中文名叫做“泰比”,有兴趣可以访问 abbyy.cn )的名字,它不久前(6月2日)推出了一款名为“ABBYY TextGrabber”的软件. 跟中国的汉王一样,这家总部位于莫斯科的公司拳头产品就是光学识别(OCR, Optical Character Recognition)技术.

OCR:慧眼读世界

- - 微软亚洲研究院
作者:微软亚洲研究院首席研究员 霍强. 把手机摄像头对准菜单上的法语菜名,屏幕上实时显示出翻译好的中文菜名;将全世界图书馆的藏书转化为电子书;街景车游走于大街小巷,拍摄街景的同时也从街景图像中自动提取文字标识,让地图信息更丰富更准确……这些场景的背后有一个共同的关键技术——OCR (Optical Character Recognition),光学字符识别.

クラウド型「人力OCR」、どう思う?

- 三十不归 - スラッシュドット・ジャパン
uxi 曰く、ASCII.jpにて、クラウドノート「KYBER」なるものが紹介されている(記事). 要するに自分の書いたノートをクラウドに保存できるという、一見よくありそうなサービスなのだが、このサービスが一線を画すのが(中国人を主体とした)人海戦術によって非常に高精度なOCRを行うという点. しかし、処理を行うのは日本語が分からない人間で、また一度に処理するのは意味の繋がらないような細切れの断片だとしても、自分の書いたメモが確実に人目に触れていると思うと、どうにも気持ちが悪い.

最好的OCR识别软件:ABBYY FineReader中文绿色版

- 米随随 - 精品绿色便携软件
ABBYY FineReader是世界排名第一的OCR文字识别工具,提供高效和精准的文档识别、数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像、图片型PDF转化成可编辑的文本. ABBYY FineReader可以看作是超级无敌的PDF转换器,能转换任意类型的PDF,其他PDF转换工具、或清华紫光OCR、尚书七号、汉王OCR等在它面前都可谓是浮云.

专业PDF转换器(支持OCR):Wondershare PDF Converter便携版

- 抹布 - 精品绿色便携软件
Wondershare PDF Converter是一款具备专业转换效果的PDF转换器,支持将PDF转换为Word、Excel、PowerPoint、EPUB、HTML、Text等格式,转换后能保留源PDF的文本、图片、表格、超链接、页面布局与格式等信息. 转换PDF至XLS/XLSX时,能够使设置是否保存表单的格式信息,如字体颜色等,转换PDF为EPUB时,则可设置字体颜色及背景色.

谁说的抓X东价格就必须OCR啊?

- mrluanma - hUrR DuRr
最近Horse Cloud手下的事情比较多,很多人是在吵架中才发现,X东的价格其实是用个图片显示的. 这个貌似X蛋和X东打价格战的时候就是图片了. 但是X东的价格根本不需要OCR就可以抓取到的:. 从过去的体验来看,不大看好一淘,我还是喜欢box-z.com这样的. 看到这个新闻《一淘网:X东商城没有技术能力屏蔽抓取》.