㈠ 玩转PDF之 ocr3000 重度ocr批量识别爱好者的福音!
PDF批量ocr识别及图片批量ocr工具!
支持多次、多PDF、图片批量ocr,识别不限量!
目标用户:有批量ocr需求的人士。显着提升工作学习效率。
在工作和学习过程中,经常遇到扫描件,无法直接复制,导致学习和生产力效率低下。我们可以通过批量ocr功能解决这一困扰,将其转换为可复制的文字,便于整理、修改和笔记。
使用方法:需要获得网络的key密钥,即注册一个网络AI账号(如有网络网盘账号,扫码即可)。在软件设置中输入ocr普通版的密钥,即可使用。
具体功能如下:
基础版:
1. 扫描PDF转txt,不限数量批量ocr,输出txt准确率98%-100%,扫描件质量越高识别率越高。
2. 识别后的txt文件排版优化,消除非段落换行,首行缩进。
3. 非扫描PDF转txt(ocr方式)。
4. PDF输出同时,保存json,方便二次制作。
5. 扫描PDF不限数量不限次数批量ocr,输出txt和PDF,并保留原PDF书签目录,扫描件质量越高识别率越高,最高100%。
6. 输出的PDF完美匹配iPad、手机、电纸书,可任意调整每一行的字数。
7. 错误日志记录。
8. 所有ocr都将另保存为json格式,以后可以任意定制PDF版式,如字体、字号、行间距、字数。
高级版(逐步开放):动态查看任务识别进度、图片批量导入ocr输出txt和PDF、识别双栏/三栏排版、识别不规则排版并重排、智能重排功能、人工智能识别段落、标题、章节标题目录、页码、文档中图片并重排、任意类型图片ocr、人工智能识别后导出word格式、添加PDF文字层,实现扫描和文字双层PDF,方便文章内容检索。
ocr3000优势:
1. 支持PDF、图片的批量ocr,实现大批量转换,显着提高工作学习效率。
2. 识别率高,利用网络提供的api接口,实现98%-100%的识别正确率。
使用方法:
下载后解压缩文件,双击ocr3000.exe运行软件。点击“设置”,输入网络的两个key文件。key的获取方法见上文。
拖动需要识别的PDF到上方窗口,点击右侧的PDF---PDF或者PDF--txt按钮。同理,图片的批量识别方法相同,拖动图片到上方窗口,点击PDF-txt或者PDF-PDF完成图片的识别(一按钮多用途)。
旁边的小黑框可以显示每一步的进度提示。
制作完成后,右侧下方有四个查看按钮,可以打开识别完成的目录。
识别完成的文件分为两个,一个是未进行排版优化的原版txt,一个是优化排版后的txt,方便用户选择使用。
识别前:
识别后的PDF,全转换成文字了,这样可以整本书搜索了!非常方便!:
同时会保存一个原版txt和优化后的txt,可以轻量化阅读,做笔记:
输出的PDF可以设置:
有三种输出可以勾选,默认28字每行。
剩下两种按需勾选,可以设置成用户自己喜爱的格式。比如每行21个字。
然后勾选前面的复选框,点确定,重启软件即可生效。
精度设置:
全自动无损提取PDF中的图片。
个别无法无损提取的图片则进行有损导出,设置如下:
设置-导出图片清晰度,默认是4。一般选用1-4,数字越大,ocr之前导出的每张图片越清晰,但导出速度越慢。反之越小,导出的图片越模糊,但速度快。
txt优化排版:同理,拖动待处理txt文件到上方窗口,点右侧“txt优化排版”即可。
可以首行缩进,可以取消段落换行。
优化后的效果如下:
Win10用户注意:
假故障:程序进行ocr等任务时,cmd界面(小黑框)会卡死,这时候用鼠标点一下小黑框(cmd界面),单机回车,则继续处理。
原因:由于win10的cmd开启了快速编辑模式,导致鼠标一点黑框就暂停了。
解决方法:点击cmd黑框右上角-默认值-取消勾选“快速编辑模式”,重启程序即可!
简易历史:
2021.6
1.53公测版发布
2021.4.11
1.44公测稳定版发布
2021.3.18
1.3公测版发布