OCR给力基础指南:把文字从图像中狠狠地抓出来
译者 longtingfang
译言的朋友可能时不时会遇到翻译的文字深陷图像的情况,此时要么打字输入要么抓抓头皮,但文字还在图像里。是的,无论单张的图片还是整本的书籍,抓取文字往往还是比逐字输入便利一些。所以,我就把自己的一点经验分享。
文字,把它从图像里抓取出来,这就是通俗所说的OCR。当然从译言的专业角度看,所谓OCR具体是Optical Character Recognition,即光学字符识别。网路上,一般涉及OCR的情况是把扫描版的PDF转化为文字版,特别因为我们可以说已经是一个电子书大国,而手机txt阅读也是需求巨大。文字版的确好处不少,便于传播与引用,视觉清晰而可转换,乃至具有二次制作的空间——至少文字版转化成图像是轻而易举的事。不过,OCR的文字识别率一般不会是100%,需要作进一步校对。
实际上,你对照图像输入文字已经就是人工目光OCR了。OCR的软件很多,但根据自己的经验,给力的也就那么两三个。
首先说单页图像OCR
单页图像的文字抓取我强烈推荐JOCR。JOCR的J是根据程序开发者Jörg Schulenburg命名,参见喂鸡百颗条目——由喂鸡也可见该程序在业界的地位。JOCR的优点是免费、绿色、轻量。免费不解释,绿色就是不需要安装,而体积则小到几乎不可思议的不足100kb。然后不可想象的是,这么小的软件其识别率还非常高,而且可以抓取20多种语言,包括中文繁体,夫复何求。
下载:JOCR原版、汉化版、使用说明、MODI及“繁体中文识别”文件。
JOCR,网路上已经有善良网友制作汉化版。其实不必,它常用的功能很简单。一般就是:第一步“Capture Region(选取需要OCR的区域)”,然后在语言框选择语言,最后“Recognize(识别)”,于是就为你蹦出一个txt文本,接下去你还可以就着这文本进行校对。
注意:
1、你要成功使用JOCR,首先得确保安装了MODI,因为JOCR是依托于它而运转的。MODI神马东东,Microsoft Office Document Imaging是也。网络上,有时把它称为“微软中文(簡體)OCR识别引擎”,虽然偏颇但很给力。不过,好像它的确只能ocr中英文,包括繁体。MODI官方版微软有下载。
软件挂名微软office,那自然就好说了。如果安装office的时候选择了“完整”安装选项,恭喜你你拥有它了。如果你没有完整安装office,那就再来一遍,或者单独安装MODI也行。好像office2010已经终止了它,所以更得叫你自己另外安装。
2、如果你需要抓取繁体,而使用的是简体windows系统,那么请将下列“繁体中文识别”文件复制到C:\Program Files\Common Files\Microsoft Shared\MODI\11.0
TCCODE.UNI
TCPRINT.DAT
TCPRINT2.DAT
TCSERHT.DAT
TCTREE.DAT
TW_BU.DAT
TW_UB.DAT
TWBIG532.DLL
然后双击reg文件导入注册表,ok。注意中的注意,导入注册表时必须先关闭所有MODI窗口,真是妈的modi。
这时,在MODI的OCR选项卡里,“OCR语言”中即可看到“中文(繁体)”,也就是说依托MODI运作的OCR软件也具有了繁体识别功能。
或许你要问,JOCR的使用(特别是繁体)不免麻烦了一点点。我的回答是,推荐JOCR正是因为它要利用到MODI及其繁体识别功能。一般的OCR软件往往对繁体睁眼瞎,或者效果轻度强奸人意,而MODI在对你说我爸是微软。MODI抓取的效果那是比较的理想,不管你信不信,反正我是这么认为了,而且原文竖排也同样可行。你爸你爷爷不是说磨刀不误砍柴工,而且微软所产木有兼容啥的事多省心。同时,MODI比起来也是轻量体积,才5M多一点点。
最后说整本批量OCR
一本PDF格式的书籍会有很多页,自然要用批量才行。
一般认为最强大的专业OCR软件是ABBYY Fine Reader(下载),号称“世界排名第一的OCR文字识别工具”是也。ABBYY Fine Reader不依托MODI运作,不免费体积庞大。一个好状况是,慈悲的网友已经制作了中文绿色版,见“最好的OCR识别软件:ABBYY Fine Reader中文绿色版”。
我自己比较ABBYY Fine Reader与MODI的效果,亲自觉得MODI略胜一筹(主要是在文字识别率上),或者各有胜出,至少难分上下。MODI抓取的结果只是文字,没有字体版式啥的。ABBYY Fine Reader有还原版面的追求,所以可能反而把问题复杂化。
总之,你还是信我一回。
MODI的一般使用方法是:在打开的PDF文档“文件”—“打印”—“名称”中选择“Microsoft office document imaging writer”,打印你需要的(所有)页面。注意,这个乃至后边生成的文件地址最好在桌面一类,不然找起来费神。于是,它生成一个后缀名为mdi的文件。你打开这个mdi文件,在“工具”中选择“使用OCR识别文本”,然后开始可能是比较漫长的识别过程。电脑不给力的话,一本数百页的书可能漫长到一觉醒来。识别结束后,你再在“工具”中选择“将文本发送到Word”,然后它为你生成一个后缀名为htm的文件,里头就有你想要的文字了。
关于OCR繁体书籍,先确保已经走过上边“繁体中文识别”的步骤。这时,你打开mdi文件,在“工具”—“选项”—“OCR”中就能看到“中文(繁体)”选项,需要时选中即可。
附说
悲催的是,我们抓取扫描版PDF版文字,常常还要制成PDF。
这里还说说自己的一点经验。对于word转PDF,一般都采用PDF打印软件,就是在word“打印”中选择相应的打印机直接就打印成PDF,如下图。我用过Word to PDF Converter,效果很不错,但是它不免费,而且上次碰到一个字的字体嵌入错误(悲催的是这个字好像没法改变字体而这里译言也没法输入,字见)。Word to PDF Converter安装后会在word工具栏生成图标,见下图。PDF Factory Pro的功能和效果也不错(但是对DFKai-SB字体不支持,那可是我的大爱)。Tiny PDF这种在视觉效果上又轻度那啥了。
下载:Word to PDF Converter v3.0及其破解与配套驱动,pdfFactory Pro 4.10 简体注册中文版及其破解。破解版杀软可能报毒,需要从杀软中排除。
如果你使用的是word2010,恭喜你,它已经能够直接另存为PDF。Word2007弄个加载项Save As PDF and XPS也可以直接另存为(下载2007 Microsoft Office Save As PDF and XPS加载项)。
另外,具体的使用过程中你可能还会遇到别的神马问题。比如在word“帮助”—“关于Microsoft Office Word”—“禁用项目”中发现Word to PDF Converter被禁用了。
真的是最后,译言很多朋友会遇到在图片上翻译的情况,这时可以用用SnagIt (下载SnagIt 8.0.1 汉化精简免安装版)。
不忘友情提示,译言的朋友可能面对屏幕持久而专注,特别是帮别人找错的时候,所以不妨把窗口设置成苹果绿(好像对word、txt窗口效果不错)。具体颜色如上边图片所示,据说对眼睛最好。