品牌型号:联想GeekPro2023
系统:Windows1064位专业版
软件版本:ABBYYFineReaderPDF15
ABBYY FineReader PDF 15是一款基于AI技术的OCR文本识别软件,可对各种格式的文档进行数字化处理,不仅可数字化常用的可搜索式PDF文档,也可对更为复杂的图像或图像型PDF文档进行文本识别。
因此,无论是图像型的扫描件,还是PDF格式的扫描件,ABBYY FineReader PDF 15都能轻松处理。接下来,一起来看看怎么操作吧。
一、打开扫描件
对于可搜索类的PDF文档扫描件,可使用“打开PDF文档”功能,进行扫描文件的文字转换。
图1:PDF扫描件
对于图像类的PDF文档扫描件或纯图像扫描件,就需要使用到ABBYYFineReaderPDF15更为高级的OCR编辑器功能,对文档进行智能化OCR文本识别后,再进行文字格式的转换保存。
图2:图像扫描件
二、识别文本
接下来,我们以可搜索式PDF文档为例,讲解一下如何在ABBYYFineReaderPDF15“打开PDF文档”功能中进行Word文字的转换。
如图3所示,我们已经将PDF文档扫描件导入到软件。
图3:PDF扫描件
接着,如图4所示,单击右上角的“识别文档”按钮,对扫描件进行文本识别。
图4:识别文档
在正式识别前,如图5所示,需进行识别OCR语言的设置,即指定扫描件中使用的语言,确保正确识别扫描件中的文本。
另外,还可以进行图像的预处理设置,比如纠正页面方向、去除图像弯曲等。
完成设置后,单击“识别”,即可完成操作。
图5:文档识别设置
三、转换为Word文档
识别后的文档需通过“另存为”功能转换为Word文档。
具体的操作是,如图6所示,依次单击文件-另存为-MicrosoftWord文档。
图6:另存为功能
在另存为界面中,如图7所示,我们可针对保存的方式、语言以及格式等进行设置。
图7:另存为选项
在保存方式上,可选择将扫描件的所有页面都保存为一个Word文档,也可选择为扫描件的每个页面单独保存为一个Word文档。
图8:文件选项
在选项设置中,如图9所示,可对文档布局、默认纸张大小、保留图片的质量、保留页眉页脚页码等进行设置。
图9:格式选项
其中,比较重要的是文档布局的设置。如图10所示,ABBYYFineReaderPDF15可将扫描件保存为精确副本(即与原扫描件格式一致)、可编辑副本(与原扫描件格式接近一致,但可编辑程度高)、格式化文本(仅包含有限格式的文本)、纯文本(仅有文本信息,无格式信息)。
图10:文档布局
如图5所示的是“精确副本”型Word文档布局,其布局与原扫描件一致,如果对扫描件的复刻程度要求较高,就需要使用“精确副本”布局;如果仅仅想获取文本信息,可选择“纯文本”布局。
图11:转换后的Word文档
四、小结
综上所述,ABBYY可利用管理PDF文档的功能,将扫描文件保存为所需的文档形式,如Word、Excel、PDF文档等。在保存设置中,可利用保存布局设置,指定文档保存后的布局,以满足具体的使用需要。
作者:泽洋