2009年11月1日星期日

PDF全文搜索之二、对图形格式的文档进行OCR

 

在很多的PDF格式文件中有大量的文档是用图像的方式来制作的,这类文档中只有图像层而没有文本层,对我们的全文索引造成了一定的困难,如下图中的文档就是一个例子,是一种看得见找不着的状态,非常不方便。

image

在Acrobat PRO中带了一很管用的功能--OCR光学字符识别,主要的功能是使用OCR识别文本后可以让文本是可检索和可选择的,由于我们并不需要重新编辑排版PDF文档只是为了阅读搜索的方便和提供给索引使用,用Acrobat PRO自带的OCR利用它能将不可见文本层放在其上方提供文档的搜索尽够了,当然如果需要编辑排版所有的内容建议是用ABBYY FineReader这类专业的OCR来处理。

 

image

在Acrobat PRO根据实际需要来确定识别当前文本还是同时识别多个文件的文本,然后根据文件选定识别的语言以及输出样式,

image

这时就可以用来搜索文本了。

image

在简体系统下识别的繁体文件,想让Windows search能搜到文本需要点技巧,如下图直接用Dr.eye译典通的繁体输入在搜索框里输入并不能找到需要的文档,

image image

我的做法是在记事本上用Dr.eye译典通的繁体输入需要搜索的文字,然后保持搜索框的输入法是在中文简体状态,然后从记事本上复制进搜索关键字,可以找到需要的文档。

没有评论:

发表评论