Hva er en OCR Scanner?

Hva er en OCR Scanner?


Optical Character Recognition (OCR) er en data-entry teknikk som bruker en bestemt skrifttype og en OCR skanner for å lese tegnsettet og sende den til datamaskinen. The American National Standards Institute, eller ANSI, definerer skrifttype som et sett med tegn 0-9, A til Z, og noen spesialtegn, som hver inneholder en definert størrelse og form. OCR skrifter er reproduserbare, og mennesker og OCR skannere kan lese og skille dem.

kategorier

OCR skannere er enten -inntastingen eller datafangst skannere. Tekst Input skannere lese hele dokumentet, eller i det minste store deler av den. Data input kan være hånd-matet eller skanneren kan ha automatisk data fôring, lesing, sortering og stabling evner. Når du bruker en -inntastingen skanner tar redigering sted enten under eller etter skanning. Datafangst skannere fangst og formatere data under skanneprosessen, og ingen menneskelig redigering av data foregår. På grunn av dette, må datafangst skannere være mer nøyaktig.

typer

Skanner typer kan være stasjonær eller håndholdt. Stasjonære skannere, slik som plan, ark-matet og tromme skannere hovedsak bruke Text Input å lese, bearbeide og lagre data bilder på datamaskinen, der du kan redigere eller på annen måte formatere fanget tekst. Håndholdte skannere, for eksempel digitale penner eller strekkodeskannere, enten bruke Text Input eller Data Capture til å lese og behandle data informasjon og deretter lagre den for senere redigering, eller "låse" data for å hindre redigering.

metoder

Kort fortalt, tar en OCR skanner et bilde av dokumentet, og deretter OCR skannerprogramvaren ser på OCR font bildet inneholder, og deretter leser og konverterer det til tekst ved hjelp av enten en Matrix Matching eller Feature Extraction metode. Matrix Matching er en form for mønstergjenkjenning der skanneren ser på en karakter og matcher den til en i sitt bibliotek av tegn eller tegnmaler. Feature Extraction ikke er avhengig av en forhåndsdefinert bibliotek, men på generelt funksjoner som åpne områder, lukket former, og kryssende linjer når tyde tegnene. Feature Extraction også går under navnet Intelligent Character Recognition, eller ICR.

fordeler

Den viktigste fordelen med å bruke en OCR skanner er eliminering av menneskelige dataregistrering feil. OCR skannere lese data i hastigheter som kan nå over 200 tegn per sekund. Nøyaktigheten frekvensen av en OCR skanner er 99,9975 prosent, eller ett tegn misforsto i 40000, sammenlignet med et menneske misread hastighet på én av 300 tegn. Automatisk kontrollsiffer validering kan bringe OCR nøyaktighet til færre enn én av tre millioner.

betraktninger

originaler av dårlig kvalitet vil føre til mindre nøyaktige OCR dokumenter. Håndskrevne dokumenter, dokumenter som inneholder stylet tekst, eldre dokumenter, fotokopier og mest fakset dokumenter ikke fungerer godt med OCR skannere. Anbefalinger for akseptable dokumenter inkluderer trykt tekst i en skriftstørrelse mindre enn 72 poeng, laser og blekkskriver tekst, fakse dokumenter med 200 punkter per større oppløsning tomme (dpi) eller og kommersielt trykt materiale som bøker, brosjyrer og magasiner.