㈠ 玩轉PDF之 ocr3000 重度ocr批量識別愛好者的福音!
PDF批量ocr識別及圖片批量ocr工具!
支持多次、多PDF、圖片批量ocr,識別不限量!
目標用戶:有批量ocr需求的人士。顯著提升工作學習效率。
在工作和學習過程中,經常遇到掃描件,無法直接復制,導致學習和生產力效率低下。我們可以通過批量ocr功能解決這一困擾,將其轉換為可復制的文字,便於整理、修改和筆記。
使用方法:需要獲得網路的key密鑰,即注冊一個網路AI賬號(如有網路網盤賬號,掃碼即可)。在軟體設置中輸入ocr普通版的密鑰,即可使用。
具體功能如下:
基礎版:
1. 掃描PDF轉txt,不限數量批量ocr,輸出txt准確率98%-100%,掃描件質量越高識別率越高。
2. 識別後的txt文件排版優化,消除非段落換行,首行縮進。
3. 非掃描PDF轉txt(ocr方式)。
4. PDF輸出同時,保存json,方便二次製作。
5. 掃描PDF不限數量不限次數批量ocr,輸出txt和PDF,並保留原PDF書簽目錄,掃描件質量越高識別率越高,最高100%。
6. 輸出的PDF完美匹配iPad、手機、電紙書,可任意調整每一行的字數。
7. 錯誤日誌記錄。
8. 所有ocr都將另保存為json格式,以後可以任意定製PDF版式,如字體、字型大小、行間距、字數。
高級版(逐步開放):動態查看任務識別進度、圖片批量導入ocr輸出txt和PDF、識別雙欄/三欄排版、識別不規則排版並重排、智能重排功能、人工智慧識別段落、標題、章節標題目錄、頁碼、文檔中圖片並重排、任意類型圖片ocr、人工智慧識別後導出word格式、添加PDF文字層,實現掃描和文字雙層PDF,方便文章內容檢索。
ocr3000優勢:
1. 支持PDF、圖片的批量ocr,實現大批量轉換,顯著提高工作學習效率。
2. 識別率高,利用網路提供的api介面,實現98%-100%的識別正確率。
使用方法:
下載後解壓縮文件,雙擊ocr3000.exe運行軟體。點擊「設置」,輸入網路的兩個key文件。key的獲取方法見上文。
拖動需要識別的PDF到上方窗口,點擊右側的PDF---PDF或者PDF--txt按鈕。同理,圖片的批量識別方法相同,拖動圖片到上方窗口,點擊PDF-txt或者PDF-PDF完成圖片的識別(一按鈕多用途)。
旁邊的小黑框可以顯示每一步的進度提示。
製作完成後,右側下方有四個查看按鈕,可以打開識別完成的目錄。
識別完成的文件分為兩個,一個是未進行排版優化的原版txt,一個是優化排版後的txt,方便用戶選擇使用。
識別前:
識別後的PDF,全轉換成文字了,這樣可以整本書搜索了!非常方便!:
同時會保存一個原版txt和優化後的txt,可以輕量化閱讀,做筆記:
輸出的PDF可以設置:
有三種輸出可以勾選,默認28字每行。
剩下兩種按需勾選,可以設置成用戶自己喜愛的格式。比如每行21個字。
然後勾選前面的復選框,點確定,重啟軟體即可生效。
精度設置:
全自動無損提取PDF中的圖片。
個別無法無損提取的圖片則進行有損導出,設置如下:
設置-導出圖片清晰度,默認是4。一般選用1-4,數字越大,ocr之前導出的每張圖片越清晰,但導出速度越慢。反之越小,導出的圖片越模糊,但速度快。
txt優化排版:同理,拖動待處理txt文件到上方窗口,點右側「txt優化排版」即可。
可以首行縮進,可以取消段落換行。
優化後的效果如下:
Win10用戶注意:
假故障:程序進行ocr等任務時,cmd界面(小黑框)會卡死,這時候用滑鼠點一下小黑框(cmd界面),單機回車,則繼續處理。
原因:由於win10的cmd開啟了快速編輯模式,導致滑鼠一點黑框就暫停了。
解決方法:點擊cmd黑框右上角-默認值-取消勾選「快速編輯模式」,重啟程序即可!
簡易歷史:
2021.6
1.53公測版發布
2021.4.11
1.44公測穩定版發布
2021.3.18
1.3公測版發布