【PDF】 关于Acrobat ClearScan 的一点建议

teiler

知名会员
管理成员
Acrobat Pro 从版本号9 开始提供了ClearScan 的功能。它的好处很明显,体积小、页面清晰。但它有一个为许多人所忽视的缺点,那就是ClearScan 的结果可能是有错的

这取决于它的原理。ClearScan 的工作原理就是根据扫描结果生成一份该文档专有的字体(该字体会内嵌在PDF文档中),然后用字体取代图片。所以文件页面越多,它起到的文件减肥作用就越明显,反而如果文件只有一两页的情况下,文件大小不会有太多改变。这实际上与djvu的工作原理类似。问题是,如果系统在OCR过程中将两个相似的不同字符识别为同一个,那么最后得到的结果就是两个字符最后都被替换成了同一个字符。这在学术文本中是比较严重的问题。Acrobat 官方博客一篇文章中也表示不建议使用ClearScan处理法律文档,正是出于同样的顾虑。

出于以上原因,我建议大家在处理学术文档的时候不要使用ClearScan 功能。虽然体积小、字体清晰是非常不错的有点,但如果为此牺牲了文档的准确性,只怕是大家都不愿意的。
 

davidldq

荣誉会员
回复: 关于Acrobat ClearScan 的一点建议

处理结果与扫描质量有关。600DPI黑白图片的处理结果很不错。
 

teiler

知名会员
管理成员
回复: 关于Acrobat ClearScan 的一点建议

David兄,即使是600dpi的黑白图片也无法百分百地保证不会出错。我手头现在是没有证据,但以前处理djvu的时候曾经发现过类似的问题——那也是600dpi的。不排除我疑心病太重的可能,但保险起见,还是少用CS的好。实在需要,可以考虑在便携设备使用CS格式的PDF,同时在电脑上保存一份Searchable Image 的PDF文件。

PS: 使用Searchable Image 的PDF文档可以随时再次OCR为CS格式的PDF,反之则不行。
 
顶部