杂记: PDF全文搜索之二、对图形格式的文档进行OCR

Technorati 标签: OCR,简繁识别,Windows search,PDF 全文索引

在很多的PDF格式文件中有大量的文档是用图像的方式来制作的，这类文档中只有图像层而没有文本层，对我们的全文索引造成了一定的困难，如下图中的文档就是一个例子，是一种看得见找不着的状态，非常不方便。

在Acrobat PRO中带了一很管用的功能--OCR光学字符识别，主要的功能是使用OCR识别文本后可以让文本是可检索和可选择的，由于我们并不需要重新编辑排版PDF文档只是为了阅读搜索的方便和提供给索引使用，用Acrobat PRO自带的OCR利用它能将不可见文本层放在其上方提供文档的搜索尽够了，当然如果需要编辑排版所有的内容建议是用ABBYY FineReader这类专业的OCR来处理。