首页 > 编程语言 > 详细

java ocr tesseract, (支持tif,jpg,png,pdf等)

时间:2019-07-08 00:54:19      阅读:121      评论:0      收藏:0      [点我收藏+]

之前在对tif做ocr的时候,在网上找了很多资源,最后选择了tesseract。

关于tesseract相信大多数人找到了资料无非两种,我来一一阐述一下用后的感受。

1.使用tess4j,在实测中发现这种封装后的效果极差,稍微复杂一点的文档识别出来的精度惨不忍睹。所以推荐以下一种方式。

2.安装tesseract原版客户端,使用java中的ProcessBuilder运行。

网上找出来的资源多是3个类,一个OCR,一个OCR2,一个ImageIOHelper,在使用中发现了实在实际上只OCR了tif中的第一个图片,如果tif有多张那么后面都被略过。

于是我把代码研究了后,发现在ImageIOHelper中的这一行代码出了问题

            BufferedImage bi = reader.read(0);  
            IIOImage image = new IIOImage(bi,null,reader.getImageMetadata(0));  
            tempFile = tempImageFile(imageFile);  
            ios = ImageIO.createImageOutputStream(tempFile);  
            writer.setOutput(ios);  
            writer.write(streamMetadata, image, tiffWriteParam);  

BufferedImage bi 只是reader.read的第一张图,并没有把剩余的图片进行读取。

在修改的过程中我又想,又为什么要把原来的文档转成imageFile呢,tesseract客户端不是可以直接读取源文件?难道是转成imageFile后精度会变高,最后我试了一下,发现转没转结果都没有发生改变

最后我整理了一下代码,以下是完整的教程。

1.安装tesseract ,我是用的是5.0,将tessdata.zip中的内容覆盖到安装目录的tessdata文件夹下

2.记得看下环境变量下是否有这两台

一丶安装路径path

技术分享图片

二丶TESSDATA_PREFIX变量

技术分享图片

3.测试OCR.java 完成

tesseract安装包及tessdata压缩包,和java文件的网盘地址:

链接: https://pan.baidu.com/s/1UchatLQm2WRBksKTd1aK3w 提取码: 14hc 

java ocr tesseract, (支持tif,jpg,png,pdf等)

原文:https://www.cnblogs.com/guofx/p/11148913.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!