Hvordan virker Talegjenkjenning fungerer?

April 7

Input

Det første trinnet i stemmegjenkjenning (VR) er input og digitalisering av stemmen til VR-kompatibel programvare. Dette skjer vanligvis via en aktiv mikrofon koblet til datamaskinen. Brukeren snakker inn i mikrofonen, og en analog-til-digital omformer (ADC) skaper digitale lydfiler for VR program å jobbe med.

Analyse

Nøkkelen til VR er i taleanalyse. VR programmer tar den digitale opptak og analysere den i små, gjenkjennelige tale biter kalt "fonemer", via høyt nivå lyd analyse programvare. (Det er ca 40 av disse i det engelske språket.)

Tale-til-tekst

Når programmet har identifisert de fonemer, begynner det en kompleks prosess for identifisering og kontekstuell analyse, sammenligner hver streng av innspilte fonemer mot alternativ tekst i minnet. Det åpner deretter sin interne språkdatabasen og parene opp de registrerte fonemer med de mest sannsynlige alternativ tekst.

Produksjon

Til slutt gir VR programvare et ord utgang til skjermen, bare øyeblikk etter å ha snakket. Det fortsetter denne prosess, ved høy hastighet, for hvert ord talt inn i sitt program.