2009年11月1日星期日

PDF全文搜索之二、对图形格式的文档进行OCR

 

在很多的PDF格式文件中有大量的文档是用图像的方式来制作的,这类文档中只有图像层而没有文本层,对我们的全文索引造成了一定的困难,如下图中的文档就是一个例子,是一种看得见找不着的状态,非常不方便。

image

在Acrobat PRO中带了一很管用的功能--OCR光学字符识别,主要的功能是使用OCR识别文本后可以让文本是可检索和可选择的,由于我们并不需要重新编辑排版PDF文档只是为了阅读搜索的方便和提供给索引使用,用Acrobat PRO自带的OCR利用它能将不可见文本层放在其上方提供文档的搜索尽够了,当然如果需要编辑排版所有的内容建议是用ABBYY FineReader这类专业的OCR来处理。

 

image

在Acrobat PRO根据实际需要来确定识别当前文本还是同时识别多个文件的文本,然后根据文件选定识别的语言以及输出样式,

image

这时就可以用来搜索文本了。

image

在简体系统下识别的繁体文件,想让Windows search能搜到文本需要点技巧,如下图直接用Dr.eye译典通的繁体输入在搜索框里输入并不能找到需要的文档,

image image

我的做法是在记事本上用Dr.eye译典通的繁体输入需要搜索的文字,然后保持搜索框的输入法是在中文简体状态,然后从记事本上复制进搜索关键字,可以找到需要的文档。

ThinkPad Rescue and Recovery 运行 CMD.EXE

ThinkPad 机器最著名的是ThinkVantage Technology,其中Rescue and Recovery给我们带来了不少方便,历经不同的版本发展,从以前支持DOS的著名F11开始直到目前的Rescue and Recovery是基于WinPE的基础上开发的非常强大的抢救和复原、配置、通信、故障诊断工具,具体的功能不想详细介绍,看官方的说明的,这里主要是想除界面上的TVTSHELL外,我们想再多做些事--WinPE的基本使用.这需要运行CMD.EXE。

Boot时按ThinkVantage键或F11,进入Rescue and Recovery 4,选启动高级版Rescue and Recovery。

image

点击保修状态,启动浏览器,

image

image

在浏览器菜单打开文件,

image

打开它,

image

打开成功

image

这时再运行Diskpart来进行分区维护,或者在系统盘上用cmd.exe替换Utilman.exe(轻松访问,出现在登陆屏的),爱干嘛干嘛。