【PDF】 PDF电子书后期加工技术导论（抛砖引玉版）

davidldq · 2009-02-22

PDF后期加工的技术含量不高，只是需要称手的软件。我现在比较喜欢用的软件包括：acrobat professional 9、Finereader 9.0.0.1019、Scanfix 4.2、FreePic2Pdf。这些软件都有破解版或免费版，可以通过迅雷或Google搜到。
一般制作程序如下：
1、切割页面。用Finereader 9.0.0.1019打开源文件。这个软件运行很慢，优点是自动化程度高。打开以后（通常需要半个小时以上），选择图像编辑-自动切割页面-应用到所有页面，软件开始切割页面，一分为二。有些页面不能自动切割（当包含空白页时），此时可以手动切割。
2、倾斜校正。在图像编辑窗口选择倾斜校正-应用到所有页面。当源文件有明显扭曲时，还可以使用“对齐文本行”功能，不过通常没有明显变化。
3、导出图像，建议选择TIFF-黑白-300DPI-无压缩。关闭Finereader，不必保存。
4、运行Scanfix 4.2。如果源文件页面比较干净，可以只打开“切除空白”功能，其他全关闭。选择刚才存储图像的文件夹，批量处理。
5、用FreePic2Pdf转成PDF。
6、用acrobat professional 9处理得到的PDF，统一页面。这个过程比较麻烦，一般程序：选择一个标准页面；重设页面大小，确保大于所有页面，应用到全部页面；删除本页空白边距；把本页的裁剪值应用与所有页面；依次检查各页面，必要时用高级编辑工具拖动页面内容。
7、导出图像，建议用tif-黑白-118像素（注意厘米和英寸的差别，118即300dpi），用PIC2PDF重新封装为PDF。这个过程的目的是抛弃冗余数据。
8、对于比较厚而且比较重要的书，可以添加目录。用Finereader识别目录页面，导出XLS表格，用宏命令把表格中的数据写入PDF文件。
9、在属性中添加书名、作者等信息。
10、用Acrobat Professional 9的OCR功能处理全书，设置clearscan、300DPI。（可选。如果源文件基础较好，OCR之后页面很漂亮，而且文件小了很多。）
11、添加封面和封底等彩色页面，保存。
12、向老婆炫耀一下，吃一只水果庆祝。（可选，呵呵~）

用这个程序也可以直接处理DJVU电子书。对于非常重要的经典书，也可以用Finereader进行OCR识别，输出PDF文件。Finereader的OCR比acrobat professional还强劲，缺点是需要人工校对，而且字体比较呆板。

以上方法的效率不是很高，好处的比较容易驾驭。真正的高手通常不会这样做。他们善用一些专用的小工具和PhotoShop。国学数典论坛有一个“先利其器”版面，讨论这类技术。另外可以看一些PDF论坛。不过没有必要搞这么透彻。

qiao · 2009-02-23

回复: PDF电子书后期加工技术导论（抛砖引玉版）

个人推荐使用Finereader 8.0扫描、识别、导出为pdf格式文字版、图像版各一份，速度快很多，使用也方便。

此外，我觉得，扫描出的书不久就会被淘汰，所以不必做得太精致，能看能用就行。

davidldq · 2009-02-23

回复: PDF电子书后期加工技术导论（抛砖引玉版）

qiao 说:
个人推荐使用Finereader 8.0扫描、识别、导出为pdf格式文字版、图像版各一份，速度快很多，使用也方便。

此外，我觉得，扫描出的书不久就会被淘汰，所以不必做得太精致，能看能用就行。

qiao兄显然不是“有洁癖”的人，呵呵~
建议qiao兄升级到Finereader9.0，功能更强，速度更快，支持中文。
我见到歪歪扭扭的扫描页面时，心理很不舒服；甚至一想起来就不舒服。当我下到一本这样的书时，即使我还不准备读，也忍不住修理一下。我太太说：强迫症+洁癖=修书。（不是修书编史的修书，是修理图书的修书。）

至于“扫描出的书不久就会被淘汰”，我持保留看法。鉴于知识产权壁垒和贫富分化趋势，扫描书还要持续很长时间。只要还有买不起书的爱书人，就会有扫描书。不想用扫描书，也很简单：赚钱，买正版电子书。

qiao · 2009-03-02

回复: PDF电子书后期加工技术导论（抛砖引玉版）

我以前也算“有洁癖”的人，但现在只有我打算读的书，才会整理一番。
关于Finereader的8.0和9.0版，我做过一些对比，最终的结果还是倾向于8.0。8.0在页面剪裁上操作更方便，双页分割上速度也快，它有自动校正功能，极少出现歪歪扭扭的页面。从识别率来说，我觉得二者差不多。当然9.0也有很多优点，所以两个版本都安装了，8.0更常用一些。

chaque · 2009-09-16

回复: PDF电子书后期加工技术导论（抛砖引玉版）

最近用Scan Kromsator做了几本书，有心得如下：
1)图片的预处理：双页分割、去污、倾斜校正、去边、图像增强等，SK自己就可以了。它最强大的功能是illumination correction，照明校正。对于双页中间阴影明显、渗入文本部分的拍照书，SK处理尤其得心应手。缺点是，软件针对每一页的自动判断不够准确，经常需要人工调校。

2）OCR，如David兄所言，有Abbyy和Acrobat Cleanscan两条路可走。需要一个抉择。Abbyy的特点是识别准确，能保留原图像，但生成的文件较大，文本不够整洁；Acrobat Cleanscan的识别不够准确（一次只能选一种主要语言），不保留原图像，但生成文件很小，视觉效果好（且较精确地复原了版面）。
目前这个取舍我以为是不容易做的，对于有些书，甚至有过做两个版本保存的想法，但是确实花费时间太多，不一定合算。通常而言，如果文本中涉及两种或以上的语言，Abbyy就几乎成了唯一选择；而如果是单语作品，识别的把握较大，则不妨采用Cleanscan。

网上流行的那种双页扫描版电子书，我以为只有经过分页去污纠偏处理等，才真正可读，否则只能供个别核对；而再经过OCR，才成为可供检索的数据。这是很重要的区别。正如楼上二位权威所言，不同的书因此需要采取不同的态度和方法来对待。

davidldq · 2009-09-16

回复: PDF电子书后期加工技术导论（抛砖引玉版）

附件是一份被书友称为“扫描宝典”的文档。菜鸟david读罢茅塞顿开。

分享几条处理电子书的心得：

1、把灰度图片转成黑白通常可以明显提高阅读效果，但前提是源文件的底子比较好。从读秀搞下来的繁体书，通常怎么折腾都是白搭；字体比较小的书（例如词典）通常也没有进一步处理的价值。一般的读秀书最好折腾一下，读起来才舒服。

2、有很多工具可以胜任灰度转黑白、同时提高分辨率的任务，除chaque兄的新宠Scan Kromsator以外，还有老马的CEP、XnView、ImageProcessor。

3、扫描文字页面最好用300DPI灰度，然后用以上任何一款软件转成黑白。

4、整理页面（对齐版心、纠偏、去污等等）最好用的工具是ImageProcessor。缺点是需要自编脚本，优点是自动化程度高。运行脚本以后，用irealer检查一下，纠正错误。

ImageProcessor已经有破解补丁。附件是我常用的一个脚本文件，欢迎批判。

chaque · 2009-09-16

回复: PDF电子书后期加工技术导论（抛砖引玉版）

David兄提供的这个“扫描宝典”前些天从readfree上就下载过了，不过今天又仔细看了一次，又有很多新认识。

宝典最主要的内容，是给俄国人编写的软件Scan Kromsator写了一个要言不烦的英文教程。我发现单靠自己琢磨找出的方法，远不如宝典介绍的管用（比如在不同图像之间navigate可以用Q、W键等）。
至于后半部分，介绍了Djvu电子书的制作和OCR，鉴于我们常用的还是PDF格式文档，这一块看来帮助不大（PDF文档支持整个目录的全文检索，djvu好像还做不到这一点。此外在易用性、兼容性上，pdf毕竟还是主流格式，能受到更多的支持）。我最感兴趣的是，怎么把带有OCR文字层的Djvu文档直接转化成OCR后的pdf文档。可惜宝典也没有涉及，遗憾！

ryanch123 · 2010-04-02

回复: PDF电子书后期加工技术导论（抛砖引玉版）

请教高人，用ABBYY来OCR，每遇到着重号的中文字必成乱码。用汉王识别中文准确率较高，但只能存RTF，不能存PDF。不知有没有什么好办法做双层PDF？

wuyeshusheng · 2010-04-05

回复: PDF电子书后期加工技术导论（抛砖引玉版）

金山的WPS软件可以输出PDF格式的文档，可是不能用来处理PDF,我经常用这款软件把自己的文档做成PDF,然后出去打印就不用怕别的电脑打不出自己设定的特殊格式了，专门的PDF软件兄弟还没有用过，楼上的童鞋们说的几款貌似不错，下载试用下

davidldq · 2010-11-19

回复: 【英】基本概念

这本书的底子好像是我修过的PDF，但是清晰度好像更高。请问T君用什么工具生成DJVU的？有什么提高清晰度的窍门吗？

PS: 这三本今天刚修完，请T君尝鲜。

Off the Beaten Track
pdf 12.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, with cover. Thanks to jsweet1)
http://ifile.it/dc81bg0

Heraclitus Seminar
pdf 7.0MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to smiley)
http://ifile.it/rg6x3fa

Holderlins Hymn The Ister
pdf 7.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to martinwindol)
http://ifile.it/pg6bwo5

teiler · 2010-11-19

回复: 【英】基本概念

davidldq 说:
这本书的底子好像是我修过的PDF，但是清晰度好像更高。请问T君用什么工具生成DJVU的？有什么提高清晰度的窍门吗？

PS: 这三本今天刚修完，请T君尝鲜。

Off the Beaten Track
pdf 12.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, with cover. Thanks to jsweet1)
http://ifile.it/dc81bg0

Heraclitus Seminar
pdf 7.0MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to smiley)
http://ifile.it/rg6x3fa

Holderlins Hymn The Ister
pdf 7.2MB(150 dpi Grey to 300 DPI BW, single page scan, paginated, ocred, no bookmark, no cover. Thanks to martinwindol)
http://ifile.it/pg6bwo5

David兄，这是我用giga提供的原始PDF为底本处理后的结果。D兄最近翻修了不少书啊。只是从我个人口味看，觉得D兄转的文档字体太粗了，在单页适合宽度模式情况下查看，眼睛有点累。也许D兄以后在gray转b/w的时候可以将threshold设置得稍微低一点。

至于提高清晰度的问题，主要有四点，有几点很费力，不是所有的书都值得这么干：
1、在条件允许的情况下，尽量使用normal级别的b/w threshold，有时候甚至更低一些。以避免转换后的字体变得太粗；
2、如果原页面文件颜色深浅不一（比如靠近中缝的地方颜色特别重），可以对部分区域使用b/w zone，单独针对该区域使用另一级别的b/w threshold；
3、手动去除污渍。ScanKromsator的图片编辑工具相当顺手。去除污渍（比如下划线），可以尽量放大页面，这样删除下划线时就可以不影响正文字符；
4、碰到字符也被污染的情况，可以考虑手动从其他页面复制相同的单词，然后覆盖被污染的字符。

ps, 即便是150dpi的灰度图片，我也是输出为600dpi的黑白图片，这一点结合b/w threshold，可能也对最终的清晰度有所影响。

处理DJVU我用all2djvu，严格说是一个为linux环境编译的程序包。所以我在win7下还额外使用一个叫做Cygwin的在windows下模拟linux环境的软件。

niutyut · 2010-11-20

回复: 【英】基本概念

davidldq

兄,海氏的<自由的本质>,我用你上次说的哪个分割软件分割,600dpi后反而更不清楚了.原始扫描的双页文本还能放大后看,制作好的就不行了.这本书兄关注一下.

davidldq · 2010-11-20

回复: 【英】基本概念

以前我常用ScanKromsator，最近改成Scan Tailor。前者的缺点是倾斜校正有bug，版心识别不准确，需要人工干预的地方比较多。相比之下，后者的倾向校正功能几乎无懈可击，版心识别比较准确，比较省心省力。后者的缺点是用户自定义设置的余地不大。

关于阅读累眼的问题，合理的解决之道的换阅读器。电子书如果不配合电子书阅读器，价值就大打折扣了。普通页面的书，经pdflrf处理之后，在6寸屏阅读器上非常舒服。页面较大的书需要8寸或10寸屏。

teiler · 2010-11-20

回复: 【英】基本概念

davidldq 说:
以前我常用ScanKromsator，最近改成Scan Tailor。前者的缺点是倾斜校正有bug，版心识别不准确，需要人工干预的地方比较多。相比之下，后者的倾向校正功能几乎无懈可击，版心识别比较准确，比较省心省力。后者的缺点是用户自定义设置的余地不大。

关于阅读累眼的问题，合理的解决之道的换阅读器。电子书如果不配合电子书阅读器，价值就大打折扣了。普通页面的书，经pdflrf处理之后，在6寸屏阅读器上非常舒服。页面较大的书需要8寸或10寸屏。

D兄，ScanKromsator的默认倾斜校正功能是比较鸡肋，但如果你打开了page设置——deskew选项旁边的 Art 功能，即 use art deskew algorithm for left/right page，那么效果会大大改善。

我也是刚发现的，总觉得ScanKromsator不会这么差劲，琢磨了一下就然就又有收获。D兄有空可以试试。

PS，我就是用17吋的显示器阅读PDF文档，所以字体太粗眼睛受不了。换个阅读器的方案对我来说不适用啊。D兄也应该考虑电脑使用用户不是？

【PDF】 PDF电子书后期加工技术导论（抛砖引玉版）

davidldq

荣誉会员

qiao

知名会员

davidldq

荣誉会员

qiao

知名会员

chaque

荣誉会员

davidldq

荣誉会员

chaque

荣誉会员

ryanch123

活跃会员

wuyeshusheng

普通会员

davidldq

荣誉会员

teiler

知名会员

niutyut

知名会员

davidldq

荣誉会员

teiler

知名会员