ABBYY FineReader:把扫描版 PDF 转换成文本

Kindle 阅读 PDF 文档是一个老大难的问题。文字版的 PDF 可以在推送到云端时,主题填写“convert”,让亚马逊服务器转换成适合 Kindle 阅读的排版格式。但是对于扫描边的 PDF 就没什么完美的解决方案了,一般的方法就是重排 PDF 文档横屏阅读,除了这两种,其实还有一个方法,那就是使用 OCR(Optical Character Recognition,光学字符识别)软件把扫描版的 PDF 转换成文字版本。https://bookfere.com/post/239.html

这次给小伙伴们推荐的就是这么一款强大的 OCR 软件——ABBYY FineReader。ABBYY 是一家俄罗斯软件公司,在文档识别,数据捕获和语言技术的开发中居世界领先地位。旗下产品 ABBYY FineReader Professional 是一款真正的专业 OCR,不仅支持多国文字,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了,处理文件会变的就像打开已经存档的文件一般便捷。

看起来是个完美的方法,其实不尽然。因为扫描版的 PDF 存在很多问题,比如字迹模糊、版式歪斜等等,也会导致 OCR 识别软件无法正确识别某些字词。另外就是复杂的公式和特殊格式的排版,OCR 软件也不能完全搞定,不过有胜于无,相比手工打字,修正个别识别错误显得更加轻松有效率。

一、软件下载

这是一款收费软件,支持正版请前往官网下载和购买

二、软件使用

如果你用过 Word,会发现 ABBYY FineReader 的界面很熟悉,它的使用很简单,只需要打开 PDF 文档即可自动识别(除了 PDF 格式还支持其他各种各样的图片或文档格式)。如下图所示,最左侧是所有页码,右侧有两栏,左栏是原稿,右栏为识别后的文档。你可以在上方的工具栏中选择不同的“文档布局”以更改识别后文档的版式,这些版式对应着不同的用途,排版也不一样,比如 Word 版式会尽可能精准的复刻原稿地版式,而 epub 格式则更接近于没有任何排版的纯文档格式。

abbyy_01

如下图所示,在识别后的文档中,有些青色高亮标注字词,这些是软件“拿不准”的字词,你可以点击界面右上角的“验证文本”,可以根据提示一个一个地修正可能存在识别错误的字词。

abbyy_02

处理完毕后,点击上方工具栏中的“保存”,即可把转换好的文档存储成图文版本。

在“保存”的下拉选项中,ABBYY FineReader 还专门为 Kindle 准备了推送项,不过需要注意的是它借助的是你电脑中的邮箱客户端,如果你没有安装邮箱客户端或者没有设置好邮箱客户端,是无法使用的。

三、注意事项

正如本文开始所说的那样,文档扫描的清晰度不一样,识别的精准度也不一样。如下图所示,第一幅图片所示的文档扫描的清晰一些,扫描过后几乎没有错字,而第二幅图片所示的文档扫描的清晰度不高,错字更多一些。所以尽可能使用该软件处理扫描精度更高的文档。

abbyy_03

abbyy_04

另外,通过不同排版格式的测试,发现该软件对数学公式、编程代码的识别并不怎么精准,所以只推荐识别纯图文形式的、扫描精度足够高的文档。

未经允许不得转载:书路 » ABBYY FineReader:把扫描版 PDF 转换成文本

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

微信扫一扫打赏