圖1基于視覺(jué)注意力的深度學(xué)習(xí)文字識(shí)別技術(shù)

● 多策略后驗(yàn)糾錯(cuò)技術(shù):對(duì)于固定模板的表單或證件,采用詞庫(kù)+編輯距離+集成學(xué)習(xí)的策略,對(duì)常見(jiàn)詞進(jìn)行詞典庫(kù)數(shù)據(jù)收集,采用編輯距離進(jìn)行更正。對(duì)關(guān)鍵數(shù)字部分,采取多個(gè)圖像預(yù)處理手段進(jìn)行集成學(xué)習(xí)給出最終結(jié)果置信度,并進(jìn)行可能出錯(cuò)的報(bào)警;對(duì)于通用的文字識(shí)別,特別是中文長(zhǎng)句識(shí)別,對(duì)OCR識(shí)別出的Top N結(jié)果,采用語(yǔ)言模型+Viterbi算法,計(jì)算最短路徑,輸出概率最高的結(jié)果。

圖2表格單據(jù)OCR解決方案

圖3發(fā)票的定位效果

服務(wù)優(yōu)勢(shì)

識(shí)別精度高:采用業(yè)界先進(jìn)的深度學(xué)習(xí)模型以及遷移學(xué)習(xí)模型優(yōu)化技術(shù),萬(wàn)億級(jí)海量訓(xùn)練樣本,識(shí)別率和召回率達(dá)到業(yè)界領(lǐng)先水平。

魯棒性好:產(chǎn)品采用黑邊處理、自動(dòng)糾偏、去噪、圖像自動(dòng)旋轉(zhuǎn)、多種二值化等方法處理圖像,能適應(yīng)任意版面/旋轉(zhuǎn)/扭曲/復(fù)雜背景/光照/模糊場(chǎng)景下的文字檢測(cè)識(shí)別。

支持多類(lèi)單據(jù)識(shí)別:支持多種類(lèi)型的表格、發(fā)票等單據(jù)識(shí)別,結(jié)構(gòu)化輸出,幫助客戶(hù)快速便捷的完成紙質(zhì)單據(jù)的電子化;也可為客戶(hù)定制各種個(gè)性化的OCR服務(wù),滿(mǎn)足不同客戶(hù)的需求。

服務(wù)穩(wěn)定高效:采用最新的大數(shù)據(jù)集群技術(shù),后臺(tái)服務(wù)器穩(wěn)定可靠,系統(tǒng)毫秒級(jí)響應(yīng)。

云服務(wù),標(biāo)準(zhǔn)API支持:服務(wù)使用簡(jiǎn)單便捷,兼容性強(qiáng)。

我們下一步將有什么?

目前華為還在布局各類(lèi)證件、通用文字識(shí)別等相關(guān)的OCR產(chǎn)品,將會(huì)陸續(xù)提供更豐富的OCR服務(wù)和基于OCR的解決方案,支持更多應(yīng)用場(chǎng)景,滿(mǎn)足更多客戶(hù)的需求。例如,通過(guò)拍照掃描等方式,提供身份信息的快速自動(dòng)錄入體驗(yàn),以提高邊檢/酒店/旅游/公共安全以及電商等行業(yè)領(lǐng)域的工作效率;自然場(chǎng)景OCR可以捕獲現(xiàn)實(shí)中多種場(chǎng)景下的文字,可有效支持虛擬現(xiàn)實(shí)、人機(jī)交互、圖像檢索、無(wú)人駕駛、車(chē)牌識(shí)別、工業(yè)自動(dòng)化等領(lǐng)域中廣泛的應(yīng)用。

分享到

sunk

相關(guān)推薦