PDF格式文件怎样转化成DOC格式文件

 时间:2020-08-15  贡献者:322fk.com

导读:如何将pdf文件转换为doc文件,格式文件怎样转化成 格式文件 PDF 格式文件怎样转化成 DOC 格式文件法一: 法一: 直接采用软件,比较好的有 solidconverpdf,scansoft.pd f.converter.v1.0。 scansoft.pdf.converter 时, 用 当采用

如何将pdf文件转换为doc文件
如何将pdf文件转换为doc文件

格式文件怎样转化成 格式文件 PDF 格式文件怎样转化成 DOC 格式文件法一: 法一: 直接采用软件,比较好的有 solidconverpdf,scansoft.pd f.converter.v1.0。

scansoft.pdf.converter 时, 用 当采用以 word 文档打开的方式时, scansoft.pdf.converter 会自动弹出 询问是否转化。

校园网 ftp 也有相关的软件,并且是破解版。

不过经过试验, 发现这些软件对只有是源文件是 pdf 的文件 的转化效果较好,如果源文件是其他格式,而转化为 pdf 的, 则无法正常转化,只能将文件以内嵌图片的方式转化,也就是 说在 word 文件中是图片的形式。

法二: 法二: 1、先将 PDF 转为图片: 可用:“Galcott PDF Converter”软件将 PDF 转为图片格式 http://www.jfdown.com/SoftView/SoftView_17738.html 2、再用 OCR 软件识别、校对: 推荐使用“汉王 OCR2.5” ftp://software@211.147.168.80/pic/hwdoc.rar

虽然汉王巳出了 5300、5800、6800,但真正完全破解的只 有汉王 OCR2.5,用它的批文件处理模式可进行自动识别,然后 再校对。

3、输出到文本: 完成识别校对后,可用我先前发的“OCR 助手”软件 http://www.czzyy.com/personal/wyx/download/OCRPlus.exe 删除多余的换行符并合并导出为单个文本文件。

4、在 WORD 中作最后的修饰。

注: 此法引述段老师课堂段老师的说法,本人由于没找到相 关软件没有成功。

如果是原文件非 pdf 格式,可用此法,首先确定你是否安 装了 Office 2003 中的 Microsoft Office Document Imaging 组件,如果没有,使用 Office 2003 安装光盘中的“添加/删除 组件”更新安装该组件,选中“Office 工具 Microsoft DRAW 转换器” 第二步,打开转化好的 pdf 文件,点打印按钮,此时 offi ce 的虚拟打印机会自动弹出对话框,如果有多个虚拟打印机, 则选择 Microsoft Office Document Image writer.然后会成 生一个 MDI 文件,并且自动打开,选择“工具→将文本发送到

Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不 变”,确认后系统会提示“必须在执行此操作前重新运行 OCR。

这可能需要一些时间”,不管它,确认即可。

如果配置较低却 是比较费时,大概会有十分钟左右,2M 的文件。

这一步完成后 会自动弹出 word 对话框,并且询问以何种方式打开,不理它, 按默认的方式打开即可,因为识别率较低,所以接下来就是在 word 中手工操作了。

格式虽然超星本身带有 OCR 识别功能,但 pdg 格式转 doc 格式 是太垃圾,只能识别简单的字。

所以这个比较复杂,没有直接的软件,至少我还没找到, 思路是先转为 pdf 格式,然后转为 doc 格式: 其中第一步:pdg 转 pdf 格式,建议用 pfdFactory,这是 个虚拟打印机,首先在超星中将文件打开,点击图书—打印, 输入页数,然后确定,接下来就会出现一个选择虚拟打印机的 对话框,当然选 pfdFactory,完成后文件会自动打开,这里只 是预览,记得要保存。

需要注意的一点是,当 pdg 文件中有空 白页时,pfdFactory 会停止不动,我也没搞清是怎么回事。

第二步,当然是由 pdf 转换为 doc 了,可以采用上边已经 叙述的方法。

我是用我个人实践的方法的,主要的缺陷是有不

少乱码,第二是超星文本中有些文字扫描的不是很清晰,所以 容易出错,不过整体上来说文本的转化没有丢太多东西。

现在网上的许多资料都是以 CAJ、PDF 等文件格式提供的, 其中的文本不能被直接编辑。

网上提供了许多处理这种情况的 软件,但是它们不是效率低,就是只能提取其中部分文本。

本 软件 文所述利用微软提供的 OCR 识别技术从 CAJ、 等文件中提取 PDF 全部文本的方法,简便快捷,效率很高。

从不同格式的文件中提取文本前需要做好以下准备工作, 安装 CAJViewer5.5 浏览器软件 acrobat 5 专业版浏览器软 软件和 软件 软 件安装 Office2003,并完全安装 Of?鄄 fice 工具 Microsoft Office Document Imaging , 然 后 在 打 印 机 里 面 会 增 加 Microsoft Office Document Image Writer 打印机。

Microsoft Office Document Image 可以非常准确的全文件识别转化中文、 英文、表格。

一、CAJ 文件的识别 (一)首先,从网上下载 CAJ 格式的资料文件保存到本地 硬盘上。

(二)然后,启动 CAJViewer 浏览器程序,并在该程序中 打开刚才保存的 CAJ 格式的文件。

浏览文件到最后一页后,不 要关闭 CAJ 浏览器程序。

(三)在 CAJ 浏览器程序窗口中,选择“文件”→ “打印” , 并选择打印机为 Microsoft Office Document Image Writer

打印机,勾选打印到文件选项和确定打印页数。

(四)保存打印文件(*.prn)到适当位置。

等待打印完成 后,Microsoft Office Document Image 自动打开刚才保存的 打印文件。

(五)在 Microsoft Office Document Image 窗口中,选 择“页面”菜单中的“选择所有页面”菜单项,然后选择“工 具”菜单中的“使用 OCR 识别文本”提取文本。

(六)选择“工具”下的 “将文本发送到 word” ,最后将 把整个 CAJ 文件识别输出到 word 文件中。

二、PDF 文件的识别 (一) 以文本形式保存的 PDF 文件, acrobat 5 专业版, 用 识别整个文件。

直接打开从网上下载的 PDF 格式文件另存为 RTF 文件, 或者选择工具栏上的文字选择按钮, 然后选择文字区域, 然后复制到 Word 中即可。

(二)以图片形式保存的 PDF 文件,将 PDF 文件打印到 Microsoft Office Document Image Writer 打印机,选择打印 形成的文件的保存位置,然后会自动形成一个 MDI 文件,并且 自动用 Microsoft Office Document Image 打开此文件,然后 在 Microsoft Office Document Im?鄄 age 中选择“工具”菜 单中的“使用 OCR 识别文本” ,识别完成后,在选择“工具”下 的, “将文本发送到 word” ,最后将把整个 PDF 文件识别输出到 word 文件中。

(三)加密的 PDF 文件先下载解密软件 软件,解密后在参照上 软件 述步骤 1),2) 进行。

(四) 繁体 PDF 文件用上述步骤 2)的方法识别到 word 后, 用 word 中的“工具”→“语言”→“中文繁简转换” 三、超星文件的识别 (一)全文件识别打印到 Microsoft Office Document Image Writer 打印机,然后按上述 PDF 文件的识别步骤中第二 点操作,要注意的是,超星打印功能有点区别,因为超星是目 录和全文分开的,所以打印时,需要分别把目录和正文识别到 Word 中,再合并到一起。

打印时要填入打印页码从 1 到最后一 页,不要选择打印全部。

在打印选项中,要将页面比例设成真 实大小,而不是整宽。

注意识别速度比其他格式要慢很多,请 保持耐心。

一般一本 200 多页的书,识别需要几分钟的时间。

(二)超星文件识别相对比较麻烦一些,如果还有问题, 可以先把超星打印成完整的 PDF 文件,然后再用上述识别 PDF 文件的方法转成 Word。

四、后记 经过试验,发现 Microsoft Office Document Image 存在 一些不稳定的问题,如在用 CAJ 打印到 Microsoft Office Document Image Writer 时,发现用 CAJ5.5 版本比较快,而 CAJ5.0 有时出现假死机。

页面显示大时,转化的识别率较高。

如果页数多的文件,包括超星,可以分多次转化。