Utfordringer for håndskriftgjenkjenning

Utfordringer for håndskriftgjenkjenning


Håndskriftgjenkjenning programmer er dataprogrammer laget for å lese håndskrevne dokumenter. Slike programmer foreløpig ikke har en høy grad av nøyaktighet. Menneskelige lesere konsekvent utkonkurrere dataprogrammer til å lese håndskrift. En rekke vanskeligheter komme i veien for å bruke et dataprogram for denne oppgaven. Disse problemer blir forsterket i tilfelle av arabisk håndskrift og i analysen av historiske dokumenter.

Problemer med håndskriftgjenkjenning

Problemer med håndskriftgjenkjenning inkluderer det faktum at hver person har en unik stil å skrive, det faktum at det ikke er satt avstanden mellom ord, og de vanskeligheter forårsaket av dårlige bilder av den opprinnelige teksten. For en datamaskin for å kunne lese en håndskrevet tekst nøyaktig, ville det trenger å være i stand til å gjenkjenne alle mulige varianter på en bestemt bokstav, for å bestemme begynnelsen og avslutningen av ord, selv når de kjører sammen, og å lese ord, selv når de er falmet. Når maskinen er gitt sammenheng med prøven på forhånd, og da vokabularet er begrenset til et sett liste over mulige ord, har enkelte programmer vært relativt effektive.

The Human Advantage

Menneskelige lesere kan konsekvent lese håndskrift med mer nøyaktighet enn dataprogrammer, selv om de står overfor de samme utfordringene med variasjoner i personlig håndskrift, ordavstanden og bildekvalitet. Ifølge forskere Amalia Rusu og Venu Govindaraju, menneskelige lesere er i stand til å bruke en Gestalt eller holistisk tilnærming, der en vag helhetsinntrykket av et bestemt ord spiller en større rolle enn noen form for formell systematisk analyse. Gestalt tenkning er vanskelig for enhver dataprogram på grunn av sin ikke-systematisk naturen.

Arabisk håndskrift

Arabisk skriving regnes som en spesielt utfordrende problem for håndskriftgjenkjenning programmer. Et bredere spekter av mulige tegnformer er funnet i arabisk skrift. I tillegg er vokaler noen ganger utelatt fra arabisk skriving, og leseren er ventet å fylle dem ved å kjenne sammenheng med ordet. Men det er ingen fast regel for når vokaler bør utelates, og når de ikke burde. Resultatet er at det ikke er noen systematisk måte for å fortelle datamaskinen om et ord skal ha en vokal på et bestemt sted eller ikke.

historiske tekster

Biblioteker, museer og private samlinger holde store mengder brev og andre håndskrevne dokumenter fra fortiden. Informasjonen som finnes i gamle brev, dagbøker og andre dokumenter kan være svært viktig for historikere, men det er ikke mulig å utføre et søk etter et bestemt ord eller begrep uten en effektiv program for håndskriftgjenkjenning. Programmer designet for å prøve å gjenkjenne hele ord i stedet for enkeltbokstaver har hatt en viss grad av suksess. Imidlertid har håndskriftgjenkjenning programmer som er laget for å lese moderne håndskrift ikke vist seg effektiv i å lese historiske dokumenter.