ipplat 专利探索
ipplat 专利探索 >> 博客文章 >> 如果将国知局下载的专利文件转成WORD格式?

如果将国知局下载的专利文件转成WORD格式?

把word转换成PDF很简单,一般可以选择安装adobe、使用WPS/Openoffice,或者安装虚拟的PDF打印机(例如cutpdf)。其中除了adobe是收费的以外,其他的都是免费,要说效果,最好的当然还是PDF打印机,因为WPS和Ooo因为打开文件还要渲染文件,但是毕竟不是MS OFFICE,可能会有一些不兼容。把pdf转换成word也不难,尤其是文字型插图的PDF,你可以选择SolidConverterPDF 这个软件,非常好用。

我这里要说的是从国知局的TIF图片弄出专利的文本文件,原理当然是OCR识别。

1、下载专利TIF文件,你可以用我的下载工具,版本的地址:www.ipplat.com/1/ipplat-20080106.html

2、下载清华紫光的OCR识别软件(我用的是7.5,不需要注册,网上很多下载的),打开所有页面。

3、识别所有页面,保存所有文本即可。

总体来说,识别中文的识别率还是非常高的,但是遇到一些不清晰的字以及一些符号类的东西,效果确实不好。
但是无论如何,比起手工输入来说,那是不知道快了N倍。在公司用了几次,特和大家共享。

Google
[来源:原创] [作者:ipplat] [日期:08-06-13] [热度:]
© 2006-2008 IPPlat.com All rights reserved.
湘ICP备08003301号