

OCR ( Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程;即對文本資料進(jìn)行掃描,然后對圖像文件進(jìn)行分析處理,獲取文字及版面信息的過程。
當(dāng)需要將紙質(zhì)文檔掃描并創(chuàng)建成電子文檔或?qū)ΜF(xiàn)有的電子文檔(如 PDF文檔或 PDF 文件包)進(jìn)行操作時(shí), OCR 是最常用的一種方式。
在日常工作學(xué)習(xí)中,當(dāng)使用福昕高級(jí)PDF編輯器打開基于紙質(zhì)掃描或圖片的PDF文檔時(shí),能自動(dòng)檢測到并彈出以下信息框,提示是否進(jìn)行 OCR。
對于 PDF中基于圖像的文本,我們可以隨時(shí)對其執(zhí)行文本識(shí)別操作~
打開福昕高級(jí)PDF編輯器,點(diǎn)擊“轉(zhuǎn)換” > “識(shí)別文本” > “當(dāng)前文件”, 在彈出的“識(shí)別文本”對話框中,指定識(shí)別范圍。從語言列表中選擇文檔的語言,您也可以選擇多種語言。
若勾選“可檢索文件的圖像”,則識(shí)別后圖片上的文本可以被選擇并且您在檢索文本時(shí)可搜索到文檔中圖片上的文本;若勾選“可編輯文本”,則識(shí)別后編輯文本時(shí)圖片上的文本也可支持編輯。
點(diǎn)擊“確定”開始識(shí)別文本。PDF文本識(shí)別進(jìn)程條將會(huì)彈出顯示進(jìn)程,識(shí)別結(jié)束后,再執(zhí)行搜索功能,您會(huì)發(fā)現(xiàn)原來在圖片上或掃描文檔中的文本也可以被搜索到。
(1)可檢索文件的圖像:在 OCR過程中,程序?qū)D片上文本進(jìn)行分析并使用與這些文本非常接近的字詞替代圖片上的文本。
替代的字詞將被放置在 PDF中一個(gè)不可見的文本層上, 從而使圖片上的文本可以被選擇和搜索。
替代過程中程序無法確定的文本將被標(biāo)記為 OCR 疑似錯(cuò)誤結(jié)果,并需要手動(dòng)進(jìn)行更正。
(2)可編輯文本:在OCR過程中, 程序?qū)D片上的文本的形狀與系統(tǒng)上安裝的近似字體進(jìn)行比對后,將這些文本轉(zhuǎn)換為可編輯文本。

在日常工作學(xué)習(xí)中,當(dāng)使用福昕高級(jí)PDF編輯器打開基于紙質(zhì)掃描或圖片的PDF文檔時(shí),能自動(dòng)檢測到并彈出以下信息框,提示是否進(jìn)行 OCR。
對于 PDF中基于圖像的文本,我們可以隨時(shí)對其執(zhí)行文本識(shí)別操作~
打開福昕高級(jí)PDF編輯器,點(diǎn)擊“轉(zhuǎn)換” > “識(shí)別文本” > “當(dāng)前文件”, 在彈出的“識(shí)別文本”對話框中,指定識(shí)別范圍。從語言列表中選擇文檔的語言,您也可以選擇多種語言。
若勾選“可檢索文件的圖像”,則識(shí)別后圖片上的文本可以被選擇并且您在檢索文本時(shí)可搜索到文檔中圖片上的文本;若勾選“可編輯文本”,則識(shí)別后編輯文本時(shí)圖片上的文本也可支持編輯。

(1)可檢索文件的圖像:在 OCR過程中,程序?qū)D片上文本進(jìn)行分析并使用與這些文本非常接近的字詞替代圖片上的文本。
替代的字詞將被放置在 PDF中一個(gè)不可見的文本層上, 從而使圖片上的文本可以被選擇和搜索。
替代過程中程序無法確定的文本將被標(biāo)記為 OCR 疑似錯(cuò)誤結(jié)果,并需要手動(dòng)進(jìn)行更正。
(2)可編輯文本:在OCR過程中, 程序?qū)D片上的文本的形狀與系統(tǒng)上安裝的近似字體進(jìn)行比對后,將這些文本轉(zhuǎn)換為可編輯文本。