首页 > 其他 > 详细

提取PDF文件中的文本信息

时间:2015-02-05 16:31:47      阅读:288      评论:0      收藏:0      [点我收藏+]

转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/43527755

      我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容,对于这类文件的内容提取可以通过该工具实现


PDF加密

      PDF文件经过加密处理之后是无法简单的复制的,PDF文件的属性也如下图所示:

技术分享


工具的使用方法

      软件的目录结构如下图:

技术分享

lib文件夹下是程序的运行环境和代码;

pdf文件夹是需要转化的pdf文件所在的文件夹;

txt文件夹是转化后生成的txt文件所在的文件夹;

run.bat是运行文件。


      将要转换的pdf文件放到pdf文件夹下,直接双击run.bat文件即可(ps:程序是后台运行,会花费一定的时间)


测试运行结果

技术分享


如有需要,在评论中留下邮箱即可(原本想放到资源上的,无奈有大小限制,只得放弃)

源代码不大,主要是有代码运行的JDK环境,不放环境,电脑没安装JDK就无法使用,等个人域名备案成功之后,会将该程序放到自己的网站上。

无jdk的下载地址:http://download.csdn.net/detail/xiaojimanman/8426309 (下载后需要电脑安装1.7及以上的jdk)

提取PDF文件中的文本信息

原文:http://blog.csdn.net/xiaojimanman/article/details/43527755

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!