電 話:18937133779
網(wǎng) 址:http://lacsohyd.com
郵 箱:zboao@qq.com
簡單介紹檔案數(shù)字化過程中的OCR技術,分析該技術的優(yōu)勢和在檔案數(shù)字化工作中的獨特應用,如,創(chuàng)新著錄標引方式;實現(xiàn)真正的全文檢索;支持雙層PDF技術;拓寬檔案用戶利用面等。在此基礎上,從OCR軟件選擇、參數(shù)設置、圖像處理、人工校對等方面探討提高OCR識別率的各種方法,以期使從事檔案數(shù)字化工作的人員有所借鑒,提高檔案數(shù)字化工作的效率。
信息時代,檔案數(shù)字化已成為檔案工作的重中之重,紙質檔案掃描工作在各地如火如荼地進行。然而,掃描所產(chǎn)生的電子檔案實際上只是以圖像形式存在的文件,而非真正意義上的文本文件,也就是說,計算機只認識檔案的外表,卻不認識其內在文字,用戶通過計算機看到檔案的原貌,卻不能對其中的內容進行引用、檢索等操作,這無疑,對將來的電子檔案利用工作造成了很大不便??紤]到檔案用戶的利用需求,若要得到文本形態(tài)的電子檔案’使檔案數(shù)字化工作更加有效、更加徹底,就要應用OCR技術。
1、OCR在檔案數(shù)字化工作中的應用
花OCR(OpticalCharacterRecognition),即“光學字符識別”,就是讓計算機"認字”.其原理是通過專門的OCR軟件,將含有文字的圖像按字切割成可獨立識別的單元,然后運用各種算法分析每個圖像單元中文字的形態(tài)特征,通過比對標準特征庫中的數(shù)據(jù),判斷出該文字在計算機中的標準編碼,并按通用格式輸出保存在文本文件中。
OCR的工作流程為:影像輸入、影像前處理、文字特征抽取、比對識別、人工校正,最后,將識別結果輸出保存。⑴雖然,一張圖像真正用于軟件識別的時間不到一秒,但前期和后期的加工處理不可小視,尤其是前兩個環(huán)節(jié)的操作,往往決定了OCR軟件的識別率,乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié),則是保證
OCR工作質量的最直接環(huán)節(jié)。
OCR技術相對于傳統(tǒng)的手工錄入方式來說,具有強大的優(yōu)勢。首先,OCR文字識別的速度遠快于手工錄入■根據(jù)國際通行的打字速度評級標準,即使是專業(yè)人員,每分鐘也僅能輸入150-240個字,而釆用OCR技術,即使算上前后期的處理環(huán)節(jié)所花時間,其速度也絕對比前者快好多倍。其次,OCR文字識別的質量遠高于手工錄入.雖然,由于各種因素影響,OCR技術的識別率很難達到100%,但比起大批量手工錄入,其出錯率要小得多。最后,OCR還節(jié)省了大量人力資源,優(yōu)化了資源配置,使人員分配于更加有意義的工作。
對于檔案數(shù)字化工作來說,OCR技術除了具有以上幾個普遍的優(yōu)勢之外,還有其獨特的用武之地:
1.1創(chuàng)新著錄標引方式。創(chuàng)建檔案目錄數(shù)據(jù)庫是一項較基礎的檔案數(shù)字化工作,目前,大多數(shù)檔案館在進行這項工作,很多檔案館已建成較為完備的目錄庫。然而,各檔案部門的檔案條目基本都是通過手工錄入的,既費時又費力,還很容易出錯。比如一些檔案,標題很長,一個題名就占了好幾行。
OCR技術提供了一種新的著錄方式,使檔案條目通過計算機錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(如題名、文號、責任者等),復制粘貼到目錄數(shù)據(jù)庫的相應字段中去。⑵但這么做,必須先掃描檔案全文、OCR,然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程,因此,可行性并不強。還有一種方法是先將檔案卷內目錄掃描、OCR處理,再復制粘貼條目,或通過特定的程序自動釆集條目信息。⑶但由于很多卷內目錄是手寫的,OCR無法識別,只得依靠手工錄入。相信隨著未來技術的發(fā)展,OCR在這方面的應用一定能夠有所突破。
此外,系統(tǒng)還可以對OCR后的檔案全文進行詞頻統(tǒng)計、內容分析,從而自動提取關鍵詞、主題詞等標志符,一定程度上,實現(xiàn)了檔案內容的自動標引。
1.2實現(xiàn)真正的全文檢索。檔案工作中所說的全文檢索實際包括兩種類型:一種是僅對檔案目錄數(shù)據(jù)庫進行檢索,找到相關條目后再打開相應的檔案全文。目前,檔案館大多釆用這種檢索方式,且尚有很多檔案沒有電子全文。另一種是真正的全文檢索,即直接對檔案全文進行檢索,而且是對檔案全文進行逐字檢索。很明顯,后一種檢索方式的査全率比前者要高出很多,使用戶能從浩如煙海的檔案館藏中找到更多所需的信息,更深入地開發(fā)利用檔案信息資源。
而要實現(xiàn)真正的全文檢索,自然離不開OCR技術,因為,只有將掃描圖像中的文字變成文本格式,才有可能對其中的文字進行逐字檢索。
1.3支持雙層PDF技術。所謂“雙層PDF”,就是一個PDF文件中的每一頁都包含兩層,上層是掃描所得到原始圖像,下層是OCR識別的文字結果.這種技術在數(shù)字圖書館領域已得到廣泛應用,我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻大多釆用了雙層PDF技術。
由于釆用雙層PDF技術既能較好地保證檔案的原真性,在用戶需要時,又能對檔案中的文字進行選擇、復制、捜索等處理,因此,必將在今后的檔案數(shù)字化工作中越來越受到青睞。而這一技術的運用,必須首先以OCR技術為支撐。
1.4拓寬檔案用戶利用面。以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用,如政府査閱某份文件,居民查閱房產(chǎn)證、結婚證、學籍卡等,這些利用需求對檔案的原真性要求較高,很多情況下,還是需要紙質檔案才能發(fā)揮作用?但檔案用戶的利用面絕不應該僅限于此,檔案除了擁有憑證價值,還與圖書、情報一樣具有情報價值、參考價值。如利用檔案進行學術研究時,用戶就更加注重檔案的知識性、信息性,但如果檔案是紙質的,要利用其中的內容就必須親自去檔案館,通過印刷或手工摘錄所需信息,非常不便,以至于有些用戶轉而通過網(wǎng)站或數(shù)字圖書館査閱所需信息。
將紙質檔案數(shù)字化,并釆用OCR識別,能夠使檔案信息資源實現(xiàn)全文檢索、網(wǎng)絡傳輸,方便用戶異地檢索、復制引用,從而深化用戶對檔案內容的査詢與利用,拓寬其利用面,使檔案也能像圖書、情報一樣,成為人們日常生活中獲取信息、利用信息、增加學識的手段,使檔案多方面地服務于公眾。
2、提高檔案數(shù)字化過程中的OCR識別率
OCR識別率是整個OCR工作的中心問題,有專家認為,OCR識別率低于90%,釆用OCR技術便毫無意義,因為后期需要進行大量的人工校正工作,從而抵消了OCR所帶來的效率。⑷對于檔案數(shù)字化這樣浩大的工程來說,提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力,從而提高整個檔案數(shù)字化工作的效率,極大地降低檔案數(shù)字化的成本。由于手寫體檔案的識別率普遍較低,不宜進行OCR識別,因此,本文所述OCR的對象僅指印刷體檔案。要提高OCR識別率,關鍵應注意以下幾點:
2.1選擇較好的OCR軟件。目前,市場上比較流行的OCR軟件很多,主要有清華紫光、清華文通、漢王、中晶尚書、丹青、蒙恬等品牌。其中,有些可以從網(wǎng)上下載免費版本,如尚書七號OCR等,但功能很少,識別率很低,只有在圖像質量非常高的情況下,才能達到較高的識別率,稍有差池便錯誤百出,畢竟“一分價錢一分貨”.還有的是掃描儀自帶的OEM軟件,如丹青、蒙恬等,這樣的軟件往往功能較少,識別率較專業(yè)的OCR軟件要低。
所以,對于檔案數(shù)字化過程中的批量OCR處理工作,若要用得省心、放心,必須購買和使用專業(yè)的OCR軟件,建議使用漢王或清華文通等專業(yè)OCR軟件,雖然要花點錢,但物有所值。
2.2設置合適的掃描參數(shù)。檔案數(shù)字化若要進行OCR處理,在前期掃描的時候,就應設置適合OCR識別的掃描參數(shù),如果己經(jīng)掃描完畢再說要進行OCR處理,就應釆用相關圖像處理軟件(如Photoshop等)先對圖像的參數(shù)進行修改再OCR。合適的掃描參數(shù)能使圖像質量更貼近于OCR識別的要求,OCR識別率自然會有很大程度的提高。
2.2.1分辨率的設定。分辨率太小,每英寸圖像上像素點太少,OCR軟件無法獲得足夠圖像信息,識別率當然就不會高。但是,并不是分辨率越高,OCR識別率也越高。分辨率太高,特別是在使用一些存在輕微掃描失真的掃描儀時,由于紙張本身著墨不均勻,反而會把一些本應連著的筆畫識別成幾段,造成識別錯誤,不僅不能提高識別率,還會使圖像文件變得很大,不利于存儲、處理和傳輸。
《紙質檔案數(shù)字化技術規(guī)范》規(guī)定:需要進行OCR漢字識別的檔案,掃描分辨率建議選擇大于或等于200dpi.⑸但是在實際工作中,200dpi還是有點小,經(jīng)驗表明,300dpi在OCR識別中最為合適,有的掃描軟件有一項“OCR掃描”,直接將掃描分辨率鎖定為300dpi.⑹
2.2.2色彩模式的選擇。如果要進行OCR識別,釆用黑白二值模式掃描的圖像,其識別速度和正確率比灰度、24位真彩(C24)模式掃描的圖像都要高,這是因為,文本通常只用到黑白二色,過多的顏色只會變成干擾信息。
灰度模式在OCR中的應用也比較廣泛。對于一些紙張發(fā)黃或文字字跡較淡的檔案,要對掃描后的圖像進行處理,第一步可將色彩模式設置為灰度,將圖像劃分為不同的灰度級別,然后,通過特定算法將某個灰度值以下的像素點都認定為白色,其他為黑色,從而達到黑白分明?一些紙張較薄甚至有點透明的檔案,OCR會受到背面文字的干擾而識別率降低,如果掃描時,在紙張背面墊一張黑紙,并使用灰度掃描,效果會好很多。⑺
而釆用24位真彩(C24)模式掃描的圖像,由于顏色干擾信息太多,識別率往往不太理想,若要進行OCR,最好先轉化為黑白二值或灰度模式,再加以識別。
2.2.3亮度和對比度的調節(jié)。檔案由于年代久遠,很多會底色發(fā)黃、字跡變淡,掃描時設置灰度模式,并不能完全改善圖像質量,若要進一步提高OCR識別率,需改變更多參數(shù),即調節(jié)亮度和對比度,且應先調亮度再調對比度。
亮度的設定以觀察掃描后的圖像中漢字的筆畫較細但又不斷開為原則。⑻對于文字字跡較淺、筆畫較細的檔案,可適當降低亮度;文字字體較小、筆畫較粗的檔案,可適當增加亮度。對于底色較深的檔案,如前文所提灰度模式掃描的圖像,可通過圖像處理軟件增加亮度,使圖像背景變成白色,同時,去除了一些原有的污點。但調節(jié)亮度的同時,必然會使圖像中的文字一起變淡。這時,便要增加圖像對比度,使文字的顏色變深。[9]
通過亮度和對比度的調節(jié),可使圖像變得更加黑白分明,從而有利于OCR識別率的提高。
2.3對圖像進行糾偏'去污處理。圖像中文字的偏斜,會極大地降低OCR識別率,筆者曾經(jīng)做過實驗,一撼只是略微有點歪的圖像,其識別率比糾偏之后至少低了10%。而圖像中的污點,也很有可能被OCR錯誤識別為文字。因此,在OCR識別前,圖像必須經(jīng)過糾偏、去污處理,以提高識別率。通常,檔案掃描工作流程中必須具備圖像糾偏、去污這一環(huán)節(jié),而無論其是否要進行OCR.
2.4仔細進行人工校對。無論電腦有多聰明,始終比不過人腦,因此,人工校對是提高OCR識別率的最后一關,也是最直接的環(huán)節(jié)。
通常,OCR軟件識別完后會將原文用兩行顯示,一行是圖像,另一行是識別結果。一些OCR軟件(如漢王OCR)會將不確定的文字用另一種顏色顯示出來,便于用戶發(fā)現(xiàn)錯誤。但實驗表明,很多情況下沒有變色的文字也會出錯,相反變了色的文字并不一定是錯的。因此,工作人員在校對時應仔細,最好能通讀一遍,尤其注意字母和數(shù)字等較易出錯的地方,盡量不放過任何錯誤。
當然,人工校對是建立在OCR識別率本身就已很高的基礎上的,它只是一個提高OCR識別率的補充環(huán)節(jié)。否則,過多的人工校對只會降低檔案數(shù)字化工作的效率,使OCR變得與手工錄入無異。
綜上所述,OCR在紙質檔案數(shù)字化過程中有其獨特的應用,如何提高OCR識別率,并將該技術運用于檔案管理最需要的地方,是值得我們考慮的問題。只有將OCR技術運用得恰到好處,才不至于浪費人力物力,才能使檔案信息資源的利用價值達到最大化,更好地服務于民。