OCR | lex.dk – Den Store Danske

OCR, optical character recognition, computergenkendelse af trykte eller skrevne bogstaver og tegn. Et OCR-system består af en scanner og et computerprogram. Vha. scanneren omsættes teksten til et billede bestående af pixels (punkter). OCR-programmet skal dels opdele billedet i en række tegn, dels genkende disse tegn ved at sammenligne dem med kendte bogstavers og tegns former. Derefter skaber programmet et dokument, der indeholder de fundne tegn; dette dokument er i modsætning til det scannede billede rediger- og søgbart.

Der sker fejl i OCR både ved opdelingen af billedet i tegn (fx kan to tegn stå meget tæt eller røre hinanden og dermed opfattes som ét tegn) og ved genkendelsen; fejl af den første type kan fx være at læse 'rn' som 'm', fejl af den anden type at læse '5' som 'S'. En typisk OCR-nøjagtighed for fx en bog er 98%, hvilket betyder 40 fejl pr. side a 2000 tegn. Dette er for meget til at være praktisk anvendeligt til fx at skabe søgbare udgaver af bøger, og selv under optimale forhold, hvor en nøjagtighed på fx 99,95% kan opnås, vil der være en fejl pr. side. OCR benyttes derfor endnu mest til specialiserede opgaver, fx automatisk sortering af post og maskinel aflæsning af kuponer og selvangivelser, hvor man allerede kender de mulige svarformater, og større nøjagtighed derfor er mulig.

Genkendelse af håndskrift er væsentlig sværere end sædvanlig OCR, da bogstaverne ofte er sammenhængende, og deres form meget variabel.

Ved at scanne med større opløsning og ved at udvikle nye algoritmer til tegngenkendelse, bl.a. ved brug af neurale netværk, sker der til stadighed fremskridt i begge typer OCR.

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

Fagansvarlig for Boghistorie og bogtryk

Poul Steen Larsen

boghistoriker