《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

本节书摘来自异步社区《Adobe Acrobat XI经典教程》一书中的第2课制作可编辑和搜索的扫描文档,作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。

制作可编辑和搜索的扫描文档
Adobe Acrobat XI经典教程
从Microsoft Word或Adobe InDesign等应用程序中将文件转换成PDF时,文本是完全可以编辑和搜索的。但是,图像文件中的文本,无论是以图像格式保存的扫描文档还是文件,都无法编辑和搜索。利用OCR(光学字符识别)技术,Acrobat将可以分析图像,并用不连续的字符代替图像的某些部分。OCR同时还可以识别分析得可能不正确的字符。

下面,我们把OCR技术用在之前转换过的TIFF文件上。

1.选择File>Open,导览到Lesson02文件夹,然后打开之前保存的GC_VendAgree.pdf文件。

2.选择常用工具栏中的Selection工具(tb0205.tif),移动光标到文档的文本上。可以选择文档中的区域,但是Acrobat不会具体选择区域中的任何文本。

3.打开工具窗格,单击Text Recognition,打开面板。

4.在Text Recognition面板中,单击In This File,如图2.20所示。Acrobat显示Recognize Text对话框。


《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

5.确保在对话框的Pages区域选中了Current Page。然后单击Edit,编辑转换设置,如图2.21所示。

6.在Recognize Text - General Settings对话框中,从PDF Output Style下拉列表中选择ClearScan,如图2.22所示。

利用ClearScan转换文件成可扩展的文本和图像,以在Acrobat中编辑。


《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档


《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

提示:
扫描图像时,Acrobat能自动运行OCR技术。只需要在扫描前,在扫描仪预设(Windows)或Acrobat Scan对话框(Mac OS)中选择Make Searchable。
7.单击OK,关闭Recognize Text - General Settings对话框,然后再次单击OK,关闭Recognize Text对话框,运行ClearScan。

Acrobat会转换该文档。

8.利用Selection工具选择页面上的单词,如图2.23所示。Acrobat已经把图像转换成可编辑、可搜索的文本了。


《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

9.单击Text Recognition面板中的Find First Suspect。Acrobat会搜索文档,找出任何可能转换得不正确的单词。如果发现任何可疑的单词,可以加以检查,并根据需要更改。用户可能还需要使用Content Editing面板中的Edit Text & Images工具,处理空格问题。

10.单击OK,关闭Touchup或Adobe Acrobat对话框,然后单击Close,关闭Find Element对话框。

11.选择File>Save As。导览到Lesson02文件夹,保存文件为GC_VendAgree_OCR.pdf。然后关闭文件。

注意:
默认情况下,Acrobat转换文档成可搜索的图像。可以利用这一设置转换文档,但是ClearScan选项往往提供更健壮、更精确的文本转换。
本文仅用于学习和交流目的,不代表异步社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。

上一篇:Cocos2d-x 生成真正的随机数


下一篇:[LeetCode] 1124. Longest Well-Performing Interval 表现良好的最长时间段