并不太恰当的标题
抛开具体使用场景谈效果是不合时宜的,一般有将Pdf转化为Word文档需求的,其初衷往往是希望在保留其排版的同时,还能够对文字部分进行编辑。一方面当前的转换技术大部分使用了Ocr识别,对文字识别倒是能做到精确匹配,但对于文字布局尚没有好的解决方案。一方面Pdf本身可以由多种软件生成,其内容与具体实现也存在巨大差异,有的Pdf是纯图片,有些是文字图片混排,当然也有纯文字的,这也是最容易处理的一种Pdf。
纯文字Pdf的处理
很多Pdf阅读器都实现了提取Pdf中文字内容的功能,比如广泛使用的福昕pdf阅读器,只需要打开Pdf文件,选择另存为,然后将另存为的格式修改为Txt格式即可。这种做法能够准确提取到Pdf中的文字部分,但同时也失去了其中包含的字体与字号的信息。
图片文本与文字转曲的Pdf
图片文本,即看着满满当当都是文字,其本质却是一张文本的图片或照片,这种Pdf文档比较容易识别,将显示效果放大一点,文本就会出现明显的马赛克;文字转曲的文档比较有迷惑性,显示清晰,放大后也能保持边缘光滑,这类文字在编辑软件内被转换成了曲线,丢失了其文字属性。对于这两类Pdf,可以利用Ocr工具,比如——“白描”Ocr识别网页版来完成。
图文混排的Pdf
图文混排的Pdf,比较好的处理方式是先提取文本,然后对需要的图片进行截取后粘贴入所需文档内,如果很不幸遇到无法提取文本的情况,尽量将文字部分截图后再用Ocr工具进行识别,因为Ocr识别并不会区分哪一部分是文本,而哪一部分是图片,一旦图片中有元素被Ocr工具好心的识别成了文字,那么这个多出来的文字可能会混入真实文本内的任何地方,平白增加了校对的难度。
更好的解决方案
事实上,更多时候,我们并不使用Word来处理Pdf,使用矢量图编辑软件是更好的方式,比如使用Coreldraw以及Adobe Illustrator,当拿到一份需要编辑的Pdf,而电脑上刚好有这两个软件时,不妨先试试能否用它们来对Pdf进行编辑。至于原因,因为大部分的Pdf文件就它们俩出品的。