【PDF】 再次厚颜求助

Jerry

版主
PDF文本如下,版本不是很好,貌似是个abbyy Ocr以后导出的文本PDF,可能有大量识别讹误。
http://ebookbrowse.com/00050-berkhof-principles-of-biblical-interpretation-pdf-d33473588
无奈掏不起钱买书,将就着看了,一看臭毛病来了,这么“脏”,咱处理下吧,结果导入SK发现一个奇葩的现象,求支招。
导入Abbyy的结果是原来的文本反而会倒退成图像,不要,打死不要。
SK这是怎么了,怎么只有黑边没有正文了。。。莫非是只处理图像,文字自动忽略了。
看着这本书糟心,求软件对付!!
 

teiler

知名会员
管理成员
回复: 再次厚颜求助

这书,本来就被处理的面目全非了。

你可以用Acrobat Pro 的对象编辑工具(Tools→Content→Edit Object) 删除与正文距离较大的污渍。但如果污渍与正文交错,那就要小心不要把正文也删了。同时也要小心不要一不注意把整个页面对象删除了。

页边距太大,可以使用Acrobat Pro 的Crop Pages 修正。

PS, SK本来就是只能处理图片的工具。
 

Jerry

版主
回复: 再次厚颜求助

基本可以对付,只是没法一页劈成两页吧。。。😭
 

ktlau127

荣誉会员
回复: 再次厚颜求助

结果导入SK发现一个奇葩的现象

野人献曝一下,遇上「奇葩」我将pdf 转成djvu 再导入S[FONT=新細明體]K[/FONT]试试。


 

teiler

知名会员
管理成员
回复: 再次厚颜求助

结果导入SK发现一个奇葩的现象

野人献曝一下,遇上「奇葩」我将pdf 转成djvu 再导入S[FONT=新細明體]K[/FONT]试试。


k兄,这样做是可行的,因为djvu也无法将pdf的文本层直接转化为自己的文本层,只能转化为图片。更直接的办法是利用Acrobat Pro,直接将PDF另存为图片,然后再用SK处理。

但这个办法只有在PDF文档保留了扫描文件的原始图层才有意义。像Jerry这篇帖子里说的文档,我觉得不是很值得花那么多力气去处理。
 

Jerry

版主
回复: 再次厚颜求助

惊动了Ktlau兄。其实先转图片我也想过的。开始我是想传统地用Abbyy剪切一遍,处理完的结果就全是图片了,估计和Djvu效果差不多吧。
无奈纯手工操作。。。完了之后还要重新ocr,这个功夫就懒得搞了。
 
顶部