【PDF】 疑问:扫描档有损与无损保存

Jerry

版主
自用canon扫描仪,以前图便利,用的是第三方软件启动扫描,Abbyy,因为不用每扫一页都点一次扫描键(无论是电脑上还是扫描仪上),可以边扫描边干点别的事情,实现一心二用。
canon自带的扫描软件很渣,连灰度这种都不是可选项,点文本的话直接出黑白图片。
Abbyy在保存也自带输出PDF格式,当然也有若干图片格式,灰常多,双手手指都数不过来。
以前为了输出时显示清爽都是保存为PDF,后来被劝了,加上后期制作需要于是改保存为jpg彩色或者灰度。
因为我也试过,从这种直接保存出来的PDF导出Tiff进行后期制作,因为Tiff体积很大,所以我感觉也很放心,以为在第一次保存为PDF时对图片是无损的。

在逻辑上,最好的选择当然是扫描档输出时就无损,但是有时候很难办到,因为我试过Tiff保存图片,一本200多页的书可能高达1.5G,纯文字不带图片。就算rar压缩比率超过70%这个数值还是远远高于保存为jpg的图片(不压缩)。
我的问题如下:
第一,在扫描档直接保存为PDF时,有没有损失(跟直接保存为图片相比,jpg或者Tiff)
另一个直接出PDF的例子是Book2net这种机器,默认也可以出Tiff,jpg或者PDF,扫全书的话这个毫无疑问必选PDF,因为本人试过,灰度图片在保存为多个jpg时,保存时间甚至相当于扫描时间。这是这个机器本身的问题(它应该内置一个系统),因为本身设计初衷估计也不是提供给批量整本扫描,硬件(内存)也比较渣,所以。。。
第二,扫描档保存为jpg和Tiff图片,之间的损失程度如何根据压缩率估量?

对这两个问题的回答直接决定了,若干个选择哪种选择会更好
A直接保存为Tiff,然后打包——以刷硬盘为代价
B直接保存为jpg,然后打包
C直接保存为PDF,需要制作再相机转换成jpg或者Tiff

众所周知,我们面对的基本都是纯文本的图片,说得实际点,有时候压缩或者有损可以接受乃是出于以下两种考虑——后期制作后的显示效果(肉眼舒适度)以及ocr识别率——可以保证的话。

再说一个例子,德国某网站提供了ocr后的灰度文本PDF,检索基本是全文式的,这也是利用了灰度图片最适于ocr的原理。不过我们在后期时往往要经过灰度转黑白放大dpi的过程,放大dpi我可以理解为在ocr时“欺骗”ocr软件比如adobe。不过,我上面所言的这个ocr方面灰度优于黑白的原理,到底建立在什么预设前提下?灰度没有经过后期的图片可以避免黑白图片带来的不必要的脏污以及干扰ocr效果的现象?
 

teiler

知名会员
管理成员
回复: 疑问:扫描档有损与无损保存

在同样分辨率下,灰度的字会比黑白更精细,所以OCR效果也更好。但从视觉效果以及体积上看,黑白更有优势。通过SK处理后的图片,将300dpi 的灰度转变为 600dpi 的黑白图片,可以说是将两者的优势结合在了一起。

虽然已经重复了上百遍,但我还是强烈推荐各位扫书的同学:

  1. 请使用300 dpi 灰度模式扫描
  2. 如果你不在乎硬盘空间,可以首选无损的TIFF格式保存;如果你需要节约空间,JPEG也是不错的选择。至于效果,相信我,在通过SK处理后不会有太大差别的。
  3. 使用SK处理,并保存为 600 dpi 的黑白TIFF图片(采用CCITT组4压缩)。
 

davidldq

荣誉会员
回复: 疑问:扫描档有损与无损保存

鼠兄这是要向专家努力啊。说说我的个人体会,抛砖引玉:
1、直接保存成pdf通常是较差选择。电子书总是要“折腾”几下才有“收藏”价值,直接封装成pdf的书只能凑合用。
2、灰度图片放大DPI转黑白的原理不是欺骗OCR。在尺寸和DPI相同的情况下,灰度图片的信息量比黑白图片大8倍,正是基于这个原因,可以利用“插值”算法放大灰度图片,然后转黑白,得到阅读效果超过原始图片的黑白图片。多年前SK的开发者坚持认为,用300DPI灰度图片放大转黑白,效果与600DPI黑白相当,但是前者所需的扫描时间只有后者的一半,所以强烈推荐300DPI灰度扫描。在理论上,这种说法大体正确,但是目前扫描仪的硬件升级和价格下降也很明显,所以直接扫600DPI(灰度!)也可以承受了。用插值算法获得的600DPI当然比直接扫600DPI差。
3、以OCR为目的,黑白比灰度有优势。
4、保存成什么格式比较好?如果仅仅考虑制作效果,TIF是最佳选择。TIF是中间产品,一本书扫下来,产生几个G的文件,但是可以立刻加工,然后删除原始图片,不用考虑占空间的事。即使考虑到多人异地合作、网络共享,也不算麻烦,因为现在的网盘速度都很生猛,1秒钟1M无压力。国内用户和国外用户共享,可以用dropbox结合QQ微云,轻松愉快。想想美剧迷曾在何等艰苦的条件下搬运笨重的视频,咱还在乎TIF的尺寸吗?
5、扫描原始图片时,一定要用灰度。扫黑白图片时,扫描仪事实上也是先弄成灰度,然后自动转成黑白。此时机器会自动判断阈值(或者使用缺省阈值),机器选择的结果通常不是最优的,所以,合理的办法是保存灰度图片,然后手动选择阈值。此外,扫描仪直接生成黑白图片时会出现“噪点”,即鼠兄所说的“脏污”,生成灰度再后处理即可解决此问题。估计大家都注意到了:灰度扫描消耗的硬件时间与黑白扫描相同,但是前者获得更丰富的图片信息。所以扫描要用灰度,然后SK之。
6、放大图片到什么程度?SK的开发者认为,放大一倍最优。早年一个高手仔细研究过读秀大图,结论是,放大到1.75最优。后来我发现,对于某些图片,放大一倍效果更好。再后来,T大神告诉我,可以放大到四倍。我估计这个问题与图片质量和放大所用的插值算法有关。如果原始图片是黑白,不要放大了,那是白费力气;如果是150DPI灰度(谷歌试读、超星大图、早期扫描书等等),放大到四倍比较好;如果是300DPI灰度,放大一倍足够了。当然,最好原始图片是600DPI灰度,不放大,直接减色到黑白,效果嘎嘎的。
 
由版主最后修改:

Enteignung

普通会员
回复: 疑问:扫描档有损与无损保存

在同样分辨率下,灰度的字会比黑白更精细,所以OCR效果也更好。但从视觉效果以及体积上看,黑白更有优势。通过SK处理后的图片,将300dpi 的灰度转变为 600dpi 的黑白图片,可以说是将两者的优势结合在了一起。

虽然已经重复了上百遍,但我还是强烈推荐各位扫书的同学:

  1. 请使用300 dpi 灰度模式扫描
  2. 如果你不在乎硬盘空间,可以首选无损的TIFF格式保存;如果你需要节约空间,JPEG也是不错的选择。至于效果,相信我,在通过SK处理后不会有太大差别的。
  3. 使用SK处理,并保存为 600 dpi 的黑白TIFF图片(采用CCITT组4压缩)。
使用SK处理,并保存为 600 dpi 的黑白TIFF图片(采用CCITT组4压缩)

SK中只有如下三个选项:
TIFF G4FAX COMPRESS
TIFF UNCOMPRESS
TIFF RLE COMPRESS
请问哪个是采用CCITT组4压缩?
 

teiler

知名会员
管理成员
回复: 疑问:扫描档有损与无损保存

使用SK处理,并保存为 600 dpi 的黑白TIFF图片(采用CCITT组4压缩)

SK中只有如下三个选项:
TIFF G4FAX COMPRESS
TIFF UNCOMPRESS
TIFF RLE COMPRESS
请问哪个是采用CCITT组4压缩?
TIFF G4FAX COMPRESS
 
顶部