OCR给力基础指南:把文字从图像中狠狠地抓出来

标签: ocr 给力 基础 | 发表时间:2011-09-29 11:14 | 作者:longtingfang pnedfff@swu&hasee
出处:http://www.yeeyan.org

译者 longtingfang

    译言的朋友可能时不时会遇到翻译的文字深陷图像的情况,此时要么打字输入要么抓抓头皮,但文字还在图像里。是的,无论单张的图片还是整本的书籍,抓取文字往往还是比逐字输入便利一些。所以,我就把自己的一点经验分享。

文字,把它从图像里抓取出来,这就是通俗所说的OCR。当然从译言的专业角度看,所谓OCR具体是Optical Character Recognition,即光学字符识别。网路上,一般涉及OCR的情况是把扫描版的PDF转化为文字版,特别因为我们可以说已经是一个电子书大国,而手机txt阅读也是需求巨大。文字版的确好处不少,便于传播与引用,视觉清晰而可转换,乃至具有二次制作的空间——至少文字版转化成图像是轻而易举的事。不过,OCR的文字识别率一般不会是100%,需要作进一步校对。

实际上,你对照图像输入文字已经就是人工目光OCR了。OCR的软件很多,但根据自己的经验,给力的也就那么两三个。

 

首先说单页图像OCR

单页图像的文字抓取我强烈推荐JOCRJOCRJ是根据程序开发者Jörg Schulenburg命名,参见喂鸡百颗条目——由喂鸡也可见该程序在业界的地位。JOCR的优点是免费、绿色、轻量。免费不解释,绿色就是不需要安装,而体积则小到几乎不可思议的不足100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。

下载:JOCR原版、汉化版、使用说明、MODI及“繁体中文识别”文件

JOCR,网路上已经有善良网友制作汉化版。其实不必,它常用的功能很简单。一般就是:第一步“Capture Region(选取需要OCR的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。

注意:

1、你要成功使用JOCR,首先得确保安装了MODI,因为JOCR是依托于它而运转的。MODI神马东东,Microsoft Office Document Imaging是也。网络上,有时把它称为“微软中文(簡體)OCR识别引擎”,虽然偏颇但很给力。不过,好像它的确只能ocr中英文,包括繁体。MODI官方版微软有下载。

软件挂名微软office,那自然就好说了。如果安装office的时候选择了“完整”安装选项,恭喜你你拥有它了。如果你没有完整安装office,那就再来一遍,或者单独安装MODI也行。好像office2010已经终止了它,所以更得叫你自己另外安装。

2、如果你需要抓取繁体,而使用的是简体windows系统,那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

          TCCODE.UNI

            TCPRINT.DAT

            TCPRINT2.DAT

            TCSERHT.DAT

            TCTREE.DAT

            TW_BU.DAT

            TW_UB.DAT

            TWBIG532.DLL

然后双击reg文件导入注册表,ok。注意中的注意,导入注册表时必须先关闭所有MODI窗口,真是妈的modi。

这时,在MODIOCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的OCR软件也具有了繁体识别功能。

或许你要问,JOCR的使用(特别是繁体)不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的OCR软件往往对繁体睁眼瞎,或者效果轻度强奸人意,而MODI在对你说我爸是微软。MODI抓取的效果那是比较的理想,不管你信不信,反正我是这么认为了,而且原文竖排也同样可行。你爸你爷爷不是说磨刀不误砍柴工,而且微软所产木有兼容啥的事多省心。同时,MODI比起来也是轻量体积,才5M多一点点。

最后说整本批量OCR

一本PDF格式的书籍会有很多页,自然要用批量才行。

一般认为最强大的专业OCR软件是ABBYY Fine Reader(下载),号称“世界排名第一的OCR文字识别工具”是也。ABBYY Fine Reader不依托MODI运作,不免费体积庞大。一个好状况是,慈悲的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYY Fine Reader中文绿色版”。

我自己比较ABBYY Fine ReaderMODI的效果,亲自觉得MODI略胜一筹(主要是在文字识别率上),或者各有胜出,至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的。ABBYY Fine Reader有还原版面的追求,所以可能反而把问题复杂化。

总之,你还是信我一回。

MODI的一般使用方法是:在打开的PDF文档“文件”—“打印”—“名称”中选择“Microsoft office document imaging writer,打印你需要的(所有)页面。注意,这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神。于是,它生成一个后缀名为mdi的文件。你打开这个mdi文件,在“工具”中选择“使用OCR识别文本”,然后开始可能是比较漫长的识别过程。电脑不给力的话,一本数百页的书可能漫长到一觉醒来。识别结束后,你再在“工具”中选择“将文本发送到Word,然后它为你生成一个后缀名为htm的文件,里头就有你想要的文字了。

关于OCR繁体书籍,先确保已经走过上边“繁体中文识别”的步骤。这时,你打开mdi文件,在“工具”—“选项”—“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。

附说

悲催的是,我们抓取扫描版PDF版文字,常常还要制成PDF

这里还说说自己的一点经验。对于wordPDF,一般都采用PDF打印软件,就是在word打印”中选择相应的打印机直接就打印成PDF,如下图。我用过Word to PDF Converter,效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误(悲催的是这个字好像没法改变字体而这里译言也没法输入,字)。Word to PDF Converter安装后会在word工具栏生成图标,见下图。PDF Factory Pro的功能和效果也不错(但是对DFKai-SB字体不支持,那可是我的大爱)。Tiny PDF这种在视觉效果上又轻度那啥了。

下载:Word to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解。破解版杀软可能报毒,需要从杀软中排除。

如果你使用的是word2010,恭喜你,它已经能够直接另存为PDFWord2007弄个加载项Save As PDF and XPS也可以直接另存为(下载2007 Microsoft Office Save As PDF and XPS加载项)。

另外,具体的使用过程中你可能还会遇到别的神马问题。比如在word帮助”—“关于Microsoft Office Word”—禁用项目”中发现Word to PDF Converter被禁用了。

真的是最后,译言很多朋友会遇到在图片上翻译的情况,这时可以用用SnagIt (下载SnagIt 8.0.1 汉化精简免安装版)。

不忘友情提示,译言的朋友可能面对屏幕持久而专注,特别是帮别人找错的时候,所以不妨把窗口设置成苹果绿(好像对word、txt窗口效果不错)。具体颜色如上边图片所示,据说对眼睛最好。

相关 [ocr 给力 基础] 推荐:

OCR给力基础指南:把文字从图像中狠狠地抓出来

- pnedfff@swu&hasee - 译言-每日精品译文推荐
译者 longtingfang.     译言的朋友可能时不时会遇到翻译的文字深陷图像的情况,此时要么打字输入要么抓抓头皮,但文字还在图像里. 是的,无论单张的图片还是整本的书籍,抓取文字往往还是比逐字输入便利一些. 所以,我就把自己的一点经验分享. 文字,把它从图像里抓取出来,这就是通俗所说的OCR.

iOS上的OCR软件TextGrabber

- Webto - 大鱼若智,大智若鱼
就在我写完上一篇关于读书笔记的Blog之后,我迅速而及时地发现了一款OCR大厂的产品. 昨天我闲来无事在App Store里闲逛,忽然发现了ABBYY(中文名叫做“泰比”,有兴趣可以访问 abbyy.cn )的名字,它不久前(6月2日)推出了一款名为“ABBYY TextGrabber”的软件. 跟中国的汉王一样,这家总部位于莫斯科的公司拳头产品就是光学识别(OCR, Optical Character Recognition)技术.

OCR:慧眼读世界

- - 微软亚洲研究院
作者:微软亚洲研究院首席研究员 霍强. 把手机摄像头对准菜单上的法语菜名,屏幕上实时显示出翻译好的中文菜名;将全世界图书馆的藏书转化为电子书;街景车游走于大街小巷,拍摄街景的同时也从街景图像中自动提取文字标识,让地图信息更丰富更准确……这些场景的背后有一个共同的关键技术——OCR (Optical Character Recognition),光学字符识别.

クラウド型「人力OCR」、どう思う?

- 三十不归 - スラッシュドット・ジャパン
uxi 曰く、ASCII.jpにて、クラウドノート「KYBER」なるものが紹介されている(記事). 要するに自分の書いたノートをクラウドに保存できるという、一見よくありそうなサービスなのだが、このサービスが一線を画すのが(中国人を主体とした)人海戦術によって非常に高精度なOCRを行うという点. しかし、処理を行うのは日本語が分からない人間で、また一度に処理するのは意味の繋がらないような細切れの断片だとしても、自分の書いたメモが確実に人目に触れていると思うと、どうにも気持ちが悪い.

最好的OCR识别软件:ABBYY FineReader中文绿色版

- 米随随 - 精品绿色便携软件
ABBYY FineReader是世界排名第一的OCR文字识别工具,提供高效和精准的文档识别、数据提取解决方案,支持多国字符和彩色文件识别,主要用于将扫描图像、图片型PDF转化成可编辑的文本. ABBYY FineReader可以看作是超级无敌的PDF转换器,能转换任意类型的PDF,其他PDF转换工具、或清华紫光OCR、尚书七号、汉王OCR等在它面前都可谓是浮云.

专业PDF转换器(支持OCR):Wondershare PDF Converter便携版

- 抹布 - 精品绿色便携软件
Wondershare PDF Converter是一款具备专业转换效果的PDF转换器,支持将PDF转换为Word、Excel、PowerPoint、EPUB、HTML、Text等格式,转换后能保留源PDF的文本、图片、表格、超链接、页面布局与格式等信息. 转换PDF至XLS/XLSX时,能够使设置是否保存表单的格式信息,如字体颜色等,转换PDF为EPUB时,则可设置字体颜色及背景色.

谁说的抓X东价格就必须OCR啊?

- mrluanma - hUrR DuRr
最近Horse Cloud手下的事情比较多,很多人是在吵架中才发现,X东的价格其实是用个图片显示的. 这个貌似X蛋和X东打价格战的时候就是图片了. 但是X东的价格根本不需要OCR就可以抓取到的:. 从过去的体验来看,不大看好一淘,我还是喜欢box-z.com这样的. 看到这个新闻《一淘网:X东商城没有技术能力屏蔽抓取》.

Java OCR tesseract 图像智能字符识别技术

- - CSDN博客互联网推荐文章
公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的(OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享. 本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈.