OCR***版,OCR全稱是光學(xué)字符識別技術(shù)(Optical Character Recognition,簡稱OCR)。我公司的印刷體文字識別系統(tǒng)識別率達(dá)到或超過99.5%。
這是針對***單位、企業(yè)及有文字錄入需求的個人用戶,在日常的工作中,快速的對書刊、報紙、公文、宣傳頁等印刷稿件中內(nèi)容進(jìn)行錄入的應(yīng)用需求而推出的。
b. OCR SDK版,OCR SDK是光學(xué)字符識別二次開發(fā)包(Optical Character Recognition Software Develop Kit,簡稱OCR SDK)。OCR SDK為其它程序使用漢字識別提供了編程的接口。它提供了Windows標(biāo)準(zhǔn)的Dll方式調(diào)用,用戶可以通過Dll中的函數(shù)調(diào)用SDK中的漢字識別功能,實現(xiàn)系統(tǒng)集成。
注意:市場上出售的手寫板等是“動態(tài)”(聯(lián)機)手寫漢字識別,我們現(xiàn)在開發(fā)的OCR是“靜態(tài)”(脫機)印刷體、手寫體漢字識別。“靜態(tài)”手寫漢字識別在文字識別領(lǐng)域公認(rèn)是***高峰、***難克服點,而且“動態(tài)”識別與“靜態(tài)”識別的應(yīng)用范圍完全不同。“動態(tài)”識別只相當(dāng)于一種輸入法,“靜態(tài)”識別不僅僅是一種輸入法,它還應(yīng)用于更廣的范圍。
2.系統(tǒng)特色
a. 本識別技術(shù)的特色是“不采用行掃描,歷遍位圖中的所有點”。采用漢字結(jié)構(gòu)分拆假設(shè)法、抽取線條整形法等算法,計算原始點陣的筆畫穿透數(shù)目,從而確定方向線素特征,從漢字筆畫描述庫中檢索出漢字。為提高識別準(zhǔn)確性,還采用了周邊四角特征、任意連續(xù)三點特征抽取、輪廓描述等輔助算法來進(jìn)行檢驗。
b. 使用流線式掃描并識別,掃描識別一鍵OK。
3.運行環(huán)境
運行環(huán)境 Windows 9x/Me/NT/2000/XP
***低配置 CPU 300 MHZ以上,64M內(nèi)存以上(建議128M以上)
4.技術(shù)、質(zhì)量概述
識別速度:在PIII 1.2G處理器256M內(nèi)存的PC機上,4至6秒/A4頁。
識別字體:全自動識別宋、仿宋、楷、黑、圓、隸書等百余種中文簡體,英文、數(shù)字、圖片混排的稿件。
識別語言:簡體中文
單字識別準(zhǔn)確率:印刷體漢字≥99%
聯(lián)想識別準(zhǔn)確率:印刷體漢字≥99.5%
支持文件格式:BMP、TIF、TIFF、JPG、JPEG、PCX、TGA、DIB、EMF、WMF。
輸出格式:TXT、RTF。
識別要求:5號字體以上的印刷材料,可選擇掃描分辨率為300dpi以上,字體越小要求分辨率越高。
其它功能:自動傾斜更正、去除指定顏色、保留指定顏色、灰度處理等。
支持硬件:普通掃描儀、名片掃描儀、逐行掃描筆、數(shù)碼相機、帶數(shù)碼相機功能的手機等。