Tek Review: 图片型PDF文件的OCR识别方法

Sunday, January 11, 2009

图片型PDF文件的OCR识别方法

Bright Moment's Blog

如何把PDF中的文字拷贝出来，而且PDF不是文字型（如doc转成的pdf），而是图片型（扫描生成）。典型的OCR识别技术应该可以解决，而且应该有不少工具。office中就有这个工具“microsoft office document imaging”，试用一下，虽然不是100%的精确，但是总比一个字一个字的输入要快得多。具体的方法可以参考：http://www.51protocol.com/searches/39111.html，摘录如下：

1.工具：microsoft office document imaging(见Office 2003 工具)、Windows程序附件中的“画图”板。
2.图片文件格式：.tif(即Tag图像文件格式，tiff)
3.步骤：
A.在PDF文件中使用快照工具，选中需要识别的区域。提示“选定的区域已复制到了剪贴板”，点击“确定”。
B. 打开“画图”板，“开始－－程序－－附件－－画图”，然后点“编辑－－粘贴－－文件－－另存为”，在保存类型中选择Tiff，然后“保存”。
C. 用microsoft office document imaging打开保存的文件，“开始－－程序－－Microsoft office－－microsoft office工具－－microsoft office document imaging”，接着点“工具－－将文本发送到Word”，去掉“在输出时保持图片版式不变”前面选择框中的“√”，然后确定。
D.在弹出的Word中即可进行编辑，识别完成。
4.注意事项：
A.PDF原稿越清晰识别效果越好，建议放大到200%使用快照工具。
B.其他格式图片应先转换为tif格式，用“画图”板打开然后另存就可以。
C.使用快照工具时选区边界尽量放宽，避免靠边的字无法正确识别。
D.支持跨栏选择的文字，识别后段落正常。
E.使用快照工具时，避免一次选择太大范围，造成死机。
F.如果识别后全为乱码，注意microsoft office document imaging的OCR选项是否为相应语言，“工具－－选项－－OCR－－OCR语言（中英文选择）－－确定”。

注：（1）默认的office并没有按照这个工具，在安装过程中需要把这个工具添加进来。（2）需要中文版的office才能识别中文字符。（3）PDF文件进行OCR识别的一种方法（TH-OCR 2007+Adobe Acrobat professional 8.0）

Labels: OCR, PDF

# posted by FT Review @ 7:16 PM

Comments: Post a Comment

<< Home

Tek Review

Sunday, January 11, 2009

图片型PDF文件的OCR识别方法

Previous Posts

Ads

Ads