【PDF】 PDF电子书后期加工技术导论(抛砖引玉版)

davidldq

荣誉会员
PDF后期加工的技术含量不高,只是需要称手的软件。我现在比较喜欢用的软件包括:acrobat professional 9、Finereader 9.0.0.1019、Scanfix 4.2、FreePic2Pdf。这些软件都有破解版或免费版,可以通过迅雷或Google搜到。
一般制作程序如下:
1、切割页面。用Finereader 9.0.0.1019打开源文件。这个软件运行很慢,优点是自动化程度高。打开以后(通常需要半个小时以上),选择图像编辑-自动切割页面-应用到所有页面,软件开始切割页面,一分为二。有些页面不能自动切割(当包含空白页时),此时可以手动切割。
2、倾斜校正。在图像编辑窗口选择倾斜校正-应用到所有页面。当源文件有明显扭曲时,还可以使用“对齐文本行”功能,不过通常没有明显变化。
3、导出图像,建议选择TIFF-黑白-300DPI-无压缩。关闭Finereader,不必保存。
4、运行Scanfix 4.2。如果源文件页面比较干净,可以只打开“切除空白”功能,其他全关闭。选择刚才存储图像的文件夹,批量处理。
5、用FreePic2Pdf转成PDF。
6、用acrobat professional 9处理得到的PDF,统一页面。这个过程比较麻烦,一般程序:选择一个标准页面;重设页面大小,确保大于所有页面,应用到全部页面;删除本页空白边距;把本页的裁剪值应用与所有页面;依次检查各页面,必要时用高级编辑工具拖动页面内容。
7、导出图像,建议用tif-黑白-118像素(注意厘米和英寸的差别,118即300dpi),用PIC2PDF重新封装为PDF。这个过程的目的是抛弃冗余数据。
8、对于比较厚而且比较重要的书,可以添加目录。用Finereader识别目录页面,导出XLS表格,用宏命令把表格中的数据写入PDF文件。
9、在属性中添加书名、作者等信息。
10、用Acrobat Professional 9的OCR功能处理全书,设置clearscan、300DPI。(可选。如果源文件基础较好,OCR之后页面很漂亮,而且文件小了很多。)
11、添加封面和封底等彩色页面,保存。
12、向老婆炫耀一下,吃一只水果庆祝。(可选,呵呵~)

用这个程序也可以直接处理DJVU电子书。对于非常重要的经典书,也可以用Finereader进行OCR识别,输出PDF文件。Finereader的OCR比acrobat professional还强劲,缺点是需要人工校对,而且字体比较呆板。

以上方法的效率不是很高,好处的比较容易驾驭。真正的高手通常不会这样做。他们善用一些专用的小工具和PhotoShop。国学数典论坛有一个“先利其器”版面,讨论这类技术。另外可以看一些PDF论坛。不过没有必要搞这么透彻。
 

qiao

知名会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

个人推荐使用Finereader 8.0扫描、识别、导出为pdf格式文字版、图像版各一份,速度快很多,使用也方便。

此外,我觉得,扫描出的书不久就会被淘汰,所以不必做得太精致,能看能用就行。
 

davidldq

荣誉会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

个人推荐使用Finereader 8.0扫描、识别、导出为pdf格式文字版、图像版各一份,速度快很多,使用也方便。

此外,我觉得,扫描出的书不久就会被淘汰,所以不必做得太精致,能看能用就行。
qiao兄显然不是“有洁癖”的人,呵呵~
建议qiao兄升级到Finereader9.0,功能更强,速度更快,支持中文。
我见到歪歪扭扭的扫描页面时,心理很不舒服;甚至一想起来就不舒服。当我下到一本这样的书时,即使我还不准备读,也忍不住修理一下。我太太说:强迫症+洁癖=修书。(不是修书编史的修书,是修理图书的修书。)

至于“扫描出的书不久就会被淘汰”,我持保留看法。鉴于知识产权壁垒和贫富分化趋势,扫描书还要持续很长时间。只要还有买不起书的爱书人,就会有扫描书。不想用扫描书,也很简单:赚钱,买正版电子书。
 

qiao

知名会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

我以前也算“有洁癖”的人,但现在只有我打算读的书,才会整理一番。
关于Finereader的8.0和9.0版,我做过一些对比,最终的结果还是倾向于8.0。8.0在页面剪裁上操作更方便,双页分割上速度也快,它有自动校正功能,极少出现歪歪扭扭的页面。从识别率来说,我觉得二者差不多。当然9.0也有很多优点,所以两个版本都安装了,8.0更常用一些。
 

chaque

荣誉会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

最近用Scan Kromsator做了几本书,有心得如下:
1)图片的预处理:双页分割、去污、倾斜校正、去边、图像增强等,SK自己就可以了。它最强大的功能是illumination correction,照明校正。对于双页中间阴影明显、渗入文本部分的拍照书,SK处理尤其得心应手。缺点是,软件针对每一页的自动判断不够准确,经常需要人工调校。

2)OCR,如David兄所言,有Abbyy和Acrobat Cleanscan两条路可走。需要一个抉择。Abbyy的特点是识别准确,能保留原图像,但生成的文件较大,文本不够整洁;Acrobat Cleanscan的识别不够准确(一次只能选一种主要语言),不保留原图像,但生成文件很小,视觉效果好(且较精确地复原了版面)。
目前这个取舍我以为是不容易做的,对于有些书,甚至有过做两个版本保存的想法,但是确实花费时间太多,不一定合算。通常而言,如果文本中涉及两种或以上的语言,Abbyy就几乎成了唯一选择;而如果是单语作品,识别的把握较大,则不妨采用Cleanscan。

网上流行的那种双页扫描版电子书,我以为只有经过分页去污纠偏处理等,才真正可读,否则只能供个别核对;而再经过OCR,才成为可供检索的数据。这是很重要的区别。正如楼上二位权威所言,不同的书因此需要采取不同的态度和方法来对待。
 

davidldq

荣誉会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

附件是一份被书友称为“扫描宝典”的文档。菜鸟david读罢茅塞顿开。

分享几条处理电子书的心得:

1、把灰度图片转成黑白通常可以明显提高阅读效果,但前提是源文件的底子比较好。从读秀搞下来的繁体书,通常怎么折腾都是白搭;字体比较小的书(例如词典)通常也没有进一步处理的价值。一般的读秀书最好折腾一下,读起来才舒服。

2、有很多工具可以胜任灰度转黑白、同时提高分辨率的任务,除chaque兄的新宠Scan Kromsator以外,还有老马的CEP、XnView、ImageProcessor。

3、扫描文字页面最好用300DPI灰度,然后用以上任何一款软件转成黑白。

4、整理页面(对齐版心、纠偏、去污等等)最好用的工具是ImageProcessor。缺点是需要自编脚本,优点是自动化程度高。运行脚本以后,用irealer检查一下,纠正错误。

ImageProcessor已经有破解补丁。附件是我常用的一个脚本文件,欢迎批判。
 

chaque

荣誉会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

David兄提供的这个“扫描宝典”前些天从readfree上就下载过了,不过今天又仔细看了一次,又有很多新认识。

宝典最主要的内容,是给俄国人编写的软件Scan Kromsator写了一个要言不烦的英文教程。我发现单靠自己琢磨找出的方法,远不如宝典介绍的管用(比如在不同图像之间navigate可以用Q、W键等)。
至于后半部分,介绍了Djvu电子书的制作和OCR,鉴于我们常用的还是PDF格式文档,这一块看来帮助不大(PDF文档支持整个目录的全文检索,djvu好像还做不到这一点。此外在易用性、兼容性上,pdf毕竟还是主流格式,能受到更多的支持)。我最感兴趣的是,怎么把带有OCR文字层的Djvu文档直接转化成OCR后的pdf文档。可惜宝典也没有涉及,遗憾!
 

ryanch123

活跃会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

请教高人,用ABBYY来OCR,每遇到着重号的中文字必成乱码。用汉王识别中文准确率较高,但只能存RTF,不能存PDF。不知有没有什么好办法做双层PDF?
 

wuyeshusheng

普通会员
回复: PDF电子书后期加工技术导论(抛砖引玉版)

金山的WPS软件可以输出PDF格式的文档,可是不能用来处理PDF,我经常用这款软件把自己的文档做成PDF,然后出去打印就不用怕别的电脑打不出自己设定的特殊格式了,专门的PDF软件兄弟还没有用过,楼上的童鞋们说的几款貌似不错,下载试用下
 

davidldq

荣誉会员
回复: 【英】基本概念

这本书的底子好像是我修过的PDF,但是清晰度好像更高。请问T君用什么工具生成DJVU的?有什么提高清晰度的窍门吗?

PS: 这三本今天刚修完,请T君尝鲜。

Off the Beaten Track
pdf 12.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, with cover. Thanks to jsweet1)
http://ifile.it/dc81bg0

Heraclitus Seminar
pdf 7.0MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to smiley)
http://ifile.it/rg6x3fa


Holderlins Hymn The Ister
pdf 7.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to martinwindol)
http://ifile.it/pg6bwo5
 

teiler

知名会员
管理成员
回复: 【英】基本概念

这本书的底子好像是我修过的PDF,但是清晰度好像更高。请问T君用什么工具生成DJVU的?有什么提高清晰度的窍门吗?

PS: 这三本今天刚修完,请T君尝鲜。

Off the Beaten Track
pdf 12.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, with cover. Thanks to jsweet1)
http://ifile.it/dc81bg0

Heraclitus Seminar
pdf 7.0MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to smiley)
http://ifile.it/rg6x3fa


Holderlins Hymn The Ister
pdf 7.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to martinwindol)
http://ifile.it/pg6bwo5
David兄,这是我用giga提供的原始PDF为底本处理后的结果。D兄最近翻修了不少书啊。只是从我个人口味看,觉得D兄转的文档字体太粗了,在单页适合宽度模式情况下查看,眼睛有点累。也许D兄以后在gray转b/w的时候可以将threshold设置得稍微低一点。

至于提高清晰度的问题,主要有四点,有几点很费力,不是所有的书都值得这么干:
1、在条件允许的情况下,尽量使用normal级别的b/w threshold,有时候甚至更低一些。以避免转换后的字体变得太粗;
2、如果原页面文件颜色深浅不一(比如靠近中缝的地方颜色特别重),可以对部分区域使用b/w zone,单独针对该区域使用另一级别的b/w threshold;
3、手动去除污渍。ScanKromsator的图片编辑工具相当顺手。去除污渍(比如下划线),可以尽量放大页面,这样删除下划线时就可以不影响正文字符;
4、碰到字符也被污染的情况,可以考虑手动从其他页面复制相同的单词,然后覆盖被污染的字符。

ps, 即便是150dpi的灰度图片,我也是输出为600dpi的黑白图片,这一点结合b/w threshold,可能也对最终的清晰度有所影响。

处理DJVU我用all2djvu,严格说是一个为linux环境编译的程序包。所以我在win7下还额外使用一个叫做Cygwin的在windows下模拟linux环境的软件。
 
由版主最后修改:

niutyut

知名会员
回复: 【英】基本概念

davidldq

兄,海氏的<自由的本质>,我用你上次说的哪个分割软件分割,600dpi后反而更不清楚了.原始扫描的双页文本还能放大后看,制作好的就不行了.这本书兄关注一下.
 

davidldq

荣誉会员
回复: 【英】基本概念

以前我常用ScanKromsator,最近改成Scan Tailor。前者的缺点是倾斜校正有bug,版心识别不准确,需要人工干预的地方比较多。相比之下,后者的倾向校正功能几乎无懈可击,版心识别比较准确,比较省心省力。后者的缺点是用户自定义设置的余地不大。

关于阅读累眼的问题,合理的解决之道的换阅读器。电子书如果不配合电子书阅读器,价值就大打折扣了。普通页面的书,经pdflrf处理之后,在6寸屏阅读器上非常舒服。页面较大的书需要8寸或10寸屏。
 

teiler

知名会员
管理成员
回复: 【英】基本概念

以前我常用ScanKromsator,最近改成Scan Tailor。前者的缺点是倾斜校正有bug,版心识别不准确,需要人工干预的地方比较多。相比之下,后者的倾向校正功能几乎无懈可击,版心识别比较准确,比较省心省力。后者的缺点是用户自定义设置的余地不大。

关于阅读累眼的问题,合理的解决之道的换阅读器。电子书如果不配合电子书阅读器,价值就大打折扣了。普通页面的书,经pdflrf处理之后,在6寸屏阅读器上非常舒服。页面较大的书需要8寸或10寸屏。
D兄,ScanKromsator的默认倾斜校正功能是比较鸡肋,但如果你打开了page设置——deskew选项旁边的 Art 功能,即 use art deskew algorithm for left/right page,那么效果会大大改善。

我也是刚发现的,总觉得ScanKromsator不会这么差劲,琢磨了一下就然就又有收获。D兄有空可以试试。

PS,我就是用17吋的显示器阅读PDF文档,所以字体太粗眼睛受不了。换个阅读器的方案对我来说不适用啊。D兄也应该考虑电脑使用用户不是?
 
顶部