翻譯技巧光學字符辨認技術(shù):讓電腦像人一樣瀏覽
階段①:采用新算法,檢測準確高效
回過頭來看,OCR技術(shù)教訓了怎么的發(fā)展歷程呢?早在20世紀60年代,IBM就末尾應(yīng)用OCR技術(shù)完成各類文檔的數(shù)字化,早期的OCR設(shè)施宏大而復 雜,只能解決潔凈背景下的某種印刷字體。20世紀80年代,平板掃描儀的誕生讓OCR進入商用階段,設(shè)施更為笨重靈巧,可能解決的字體數(shù)量也增多,但對文 字的背景要求仍然很高,需求很好的成像品質(zhì)。
因為人造場景下的文字辨認難度大,微軟亞洲鉆研院團隊對相干技術(shù)和算法停止了針對性的優(yōu)化和創(chuàng)新,從三個方面對文本檢測技術(shù)停止了改進,并取得打破。通 常,OCR辨認的步驟可能分為兩步:首先是文本檢測(Text detection),將文字從圖片中提取進去;然后,對文本停止辨認(Recognition),此次的打破次要是在文本檢測環(huán)節(jié)的兩個子階段。
咱們也可能想象一下OCR在未來任務(wù)中的運用場景:每次任務(wù)會議后,無需再把白板上的探討內(nèi)容繕寫上去,然后群發(fā)郵件布置義務(wù),只需將白板用手機等智能設(shè)施拍照留存,系統(tǒng)便能主動辨認并分檢出相干人員的后續(xù)任務(wù),并將待辦事項主動寄存到各自的電子日歷中。
對CER的色彩增強效果示例
OCR讓電腦“讀”懂世界
文字類成績空間劃分示例
該算法根據(jù)文字自身的個性采用分治策略將原始成績空間劃分為6個子空間,每個子空間對應(yīng)一類文字樣本,分別命名為Long類,Thin類,F(xiàn)ill 類,Square-large類和 Square-small類(如下圖所示),于是每個候選連通區(qū)域被劃分到這6類中的一種。
在每個子空間中,微軟亞洲鉆研院團隊創(chuàng)新天時用無歧義學習策略訓練一個相應(yīng)的淺層神經(jīng)網(wǎng)絡(luò),作為該子空間的文字/非文字分類器,咱們可能將該神經(jīng)網(wǎng)絡(luò)看作是一個黑盒子,在通過大量學習之后,它便能較為準確的將文字與非文字分類。