Hva er Optical Character Recognition programvare?

Muligheten til å skanne et dokument inn maskinlesbar form er en makeløs tidsbesparende. Snarere enn å skrive inn dokumentet, og eventuelt sette inn feil i din egen, skanne det og passerer det skannede bildet gjennom en programvare leser kan resultere i et redigerbart dokument med en høy grad av nøyaktighet i forhold til det opprinnelige. Denne programvaren prosessen kalles optisk tegngjenkjenning.

Optisk karaktergjenkjennelse

Optisk tegngjenkjenning (OCR) er en prosess der trykte eller håndskrevne teksten er mekanisk eller elektronisk lese og omgjort til en form gjenkjent av en datamaskin. Den sofistikerte prosessen ser brevet skjemaer og sammenligner dem med et bibliotek av lignende former. Når en kamp er gjort, er et tegn som representerer mønsteret som vises på skjermen, eller settes inn i en datafil. OCR gjør det mulig for et dokument som skal skannes og leses av en datamaskin, lage en fil som kan redigeres eller handlet på andre måter.

OCR-programvare

Dataprogrammer brukes for moderne OCR gjennomføring. Programvaren har avansert fra sine tidligste dager, der programmene måtte kalibreres for hver unike font det var forventet å gjenkjenne. Den er tilgjengelig i frittstående form som et program spesielt laget for oppgaven, og som en komponent i skanneprogramvare. Ankomsten av Internett og cloud computing har ført til utvikling av web-baserte OCR-programmer, noe som eliminerer behovet for individuelle stasjonære eller serverinstallasjoner.

Gjenkjenningsprosessen

OCR-programvare fungerer ved første erkjenner forskjellen mellom lyse og mørke områder i det skannede bildet. Som det oppdager en lys-mørk utmerkelse, ser programmet etter gjenkjennelige mønstre, for eksempel vertikale og horisontale linjer, samt koblet eller delvis kurver. Hvis det kan gjenkjenne et mønster som et brev eller annen karakter, søker den sin database for tilsvarende karakter i datamaskinens språk sett. Den passerer så dette tegnet på til dokumentet eller vise det montering. Hvis programvaren er i stand til å gjenkjenne en karakter, kan det gjøre sitt beste gjetning eller erstatte en alternativ karakter for å holde prosessen i gang.

Potensielle problemer med OCR-programvare

Siden OCR-programvare er avhengig av mønstergjenkjenning, noen gjenstand på siden som potensielt kan påvirke denne prosessen er en kilde til problemer. OCR fungerer best når det er et klart skille mellom tegnene og bakgrunnen av dokumentet, ideelt sett svart på hvitt. Farget eller opptatt bakgrunn som gjør mønstrene mindre karakteristiske kan føre til problemer. Flekker, rynker og andre skader på dokumentet kan resultere i feil tegngjenkjenning i tillegg.