OCR给力基础指南：把文字从图像中狠狠地抓出来

标签： ocr 给力基础 | 发表时间：2011-09-29 11:14 | 作者：longtingfang pnedfff@swu&hasee

出处：http://www.yeeyan.org

译言的朋友可能时不时会遇到翻译的文字深陷图像的情况，此时要么打字输入要么抓抓头皮，但文字还在图像里。是的，无论单张的图片还是整本的书籍，抓取文字往往还是比逐字输入便利一些。所以，我就把自己的一点经验分享。

文字，把它从图像里抓取出来，这就是通俗所说的OCR。当然从译言的专业角度看，所谓OCR具体是Optical Character Recognition，即光学字符识别。网路上，一般涉及OCR的情况是把扫描版的PDF转化为文字版，特别因为我们可以说已经是一个电子书大国，而手机txt阅读也是需求巨大。文字版的确好处不少，便于传播与引用，视觉清晰而可转换，乃至具有二次制作的空间——至少文字版转化成图像是轻而易举的事。不过，OCR的文字识别率一般不会是100%，需要作进一步校对。

实际上，你对照图像输入文字已经就是人工目光OCR了。OCR的软件很多，但根据自己的经验，给力的也就那么两三个。

首先说单页图像OCR

单页图像的文字抓取我强烈推荐JOCR。JOCR的J是根据程序开发者Jörg Schulenburg命名，参见喂鸡百颗条目——由喂鸡也可见该程序在业界的地位。JOCR的优点是免费、绿色、轻量。免费不解释，绿色就是不需要安装，而体积则小到几乎不可思议的不足100kb。然后不可想象的是，这么小的软件其识别率还非常高，而且可以抓取20多种语言，包括中文繁体，夫复何求。

下载：JOCR原版、汉化版、使用说明、MODI及“繁体中文识别”文件。

JOCR，网路上已经有善良网友制作汉化版。其实不必，它常用的功能很简单。一般就是：第一步“Capture Region（选取需要OCR的区域）”，然后在语言框选择语言，最后“Recognize（识别）”，于是就为你蹦出一个txt文本，接下去你还可以就着这文本进行校对。

注意：

1、你要成功使用JOCR，首先得确保安装了MODI，因为JOCR是依托于它而运转的。MODI神马东东，Microsoft Office Document Imaging是也。网络上，有时把它称为“微软中文（簡體）OCR识别引擎”，虽然偏颇但很给力。不过，好像它的确只能ocr中英文，包括繁体。MODI官方版微软有下载。

软件挂名微软office，那自然就好说了。如果安装office的时候选择了“完整”安装选项，恭喜你你拥有它了。如果你没有完整安装office，那就再来一遍，或者单独安装MODI也行。好像office2010已经终止了它，所以更得叫你自己另外安装。

2、如果你需要抓取繁体，而使用的是简体windows系统，那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0

TCCODE.UNI

TCPRINT.DAT

TCPRINT2.DAT

TCSERHT.DAT

TCTREE.DAT

TW_BU.DAT

TW_UB.DAT

TWBIG532.DLL

然后双击reg文件导入注册表，ok。注意中的注意，导入注册表时必须先关闭所有MODI窗口，真是妈的modi。

这时，在MODI的OCR选项卡里，“OCR语言”中即可看到“中文（繁体）”，也就是说依托MODI运作的OCR软件也具有了繁体识别功能。

或许你要问，JOCR的使用（特别是繁体）不免麻烦了一点点。我的回答是，推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的OCR软件往往对繁体睁眼瞎，或者效果轻度强奸人意，而MODI在对你说我爸是微软。MODI抓取的效果那是比较的理想，不管你信不信，反正我是这么认为了，而且原文竖排也同样可行。你爸你爷爷不是说磨刀不误砍柴工，而且微软所产木有兼容啥的事多省心。同时，MODI比起来也是轻量体积，才5M多一点点。

最后说整本批量OCR

一本PDF格式的书籍会有很多页，自然要用批量才行。

一般认为最强大的专业OCR软件是ABBYY Fine Reader（下载），号称“世界排名第一的OCR文字识别工具”是也。ABBYY Fine Reader不依托MODI运作，不免费体积庞大。一个好状况是，慈悲的网友已经制作了中文绿色版，见“最好的OCR识别软件：ABBYY Fine Reader中文绿色版”。

我自己比较ABBYY Fine Reader与MODI的效果，亲自觉得MODI略胜一筹（主要是在文字识别率上），或者各有胜出，至少难分上下。MODI抓取的结果只是文字，没有字体版式啥的。ABBYY Fine Reader有还原版面的追求，所以可能反而把问题复杂化。

总之，你还是信我一回。

MODI的一般使用方法是：在打开的PDF文档“文件”—“打印”—“名称”中选择“Microsoft office document imaging writer”，打印你需要的（所有）页面。注意，这个乃至后边生成的文件地址最好在桌面一类，不然找起来费神。于是，它生成一个后缀名为mdi的文件。你打开这个mdi文件，在“工具”中选择“使用OCR识别文本”，然后开始可能是比较漫长的识别过程。电脑不给力的话，一本数百页的书可能漫长到一觉醒来。识别结束后，你再在“工具”中选择“将文本发送到Word”，然后它为你生成一个后缀名为htm的文件，里头就有你想要的文字了。

关于OCR繁体书籍，先确保已经走过上边“繁体中文识别”的步骤。这时，你打开mdi文件，在“工具”—“选项”—“OCR”中就能看到“中文（繁体）”选项，需要时选中即可。

附说

悲催的是，我们抓取扫描版PDF版文字，常常还要制成PDF。

这里还说说自己的一点经验。对于word转PDF，一般都采用PDF打印软件，就是在word“打印”中选择相应的打印机直接就打印成PDF，如下图。我用过Word to PDF Converter，效果很不错，但是它不免费，而且上次碰到一个字的字体嵌入错误（悲催的是这个字好像没法改变字体而这里译言也没法输入，字见）。Word to PDF Converter安装后会在word工具栏生成图标，见下图。PDF Factory Pro的功能和效果也不错（但是对DFKai-SB字体不支持，那可是我的大爱）。Tiny PDF这种在视觉效果上又轻度那啥了。

下载：Word to PDF Converter v3.0及其破解与配套驱动，pdfFactory Pro 4.10 简体注册中文版及其破解。破解版杀软可能报毒，需要从杀软中排除。

如果你使用的是word2010，恭喜你，它已经能够直接另存为PDF。Word2007弄个加载项Save As PDF and XPS也可以直接另存为（下载2007 Microsoft Office Save As PDF and XPS加载项）。

另外，具体的使用过程中你可能还会遇到别的神马问题。比如在word“帮助”—“关于Microsoft Office Word”—“禁用项目”中发现Word to PDF Converter被禁用了。

真的是最后，译言很多朋友会遇到在图片上翻译的情况，这时可以用用SnagIt （下载SnagIt 8.0.1 汉化精简免安装版）。

不忘友情提示，译言的朋友可能面对屏幕持久而专注，特别是帮别人找错的时候，所以不妨把窗口设置成苹果绿（好像对word、txt窗口效果不错）。具体颜色如上边图片所示，据说对眼睛最好。

OCR给力基础指南：把文字从图像中狠狠地抓出来

相关 [ocr 给力基础] 推荐：