把word转换成PDF很简单,一般可以选择安装adobe、使用WPS/Openoffice,或者安装虚拟的PDF打印机(例如cutpdf)。其中除了adobe是收费的以外,其他的都是免费,要说效果,最好的当然还是PDF打印机,因为WPS和Ooo因为打开文件还要渲染文件,但是毕竟不是MS OFFICE,可能会有一些不兼容。把pdf转换成word也不难,尤其是文字型插图的PDF,你可以选择SolidConverterPDF 这个软件,非常好用。
我这里要说的是从国知局的TIF图片弄出专利的文本文件,原理当然是OCR识别。
1、下载专利TIF文件,你可以用我的下载工具,版本的地址:www.ipplat.com/1/ipplat-20080106.html
2、下载清华紫光的OCR识别软件(我用的是7.5,不需要注册,网上很多下载的),打开所有页面。
3、识别所有页面,保存所有文本即可。
总体来说,识别中文的识别率还是非常高的,但是遇到一些不清晰的字以及一些符号类的东西,效果确实不好。
但是无论如何,比起手工输入来说,那是不知道快了N倍。在公司用了几次,特和大家共享。