Stemmegjenkjenning Metoder

September 25

Stemmegjenkjenning er datamaskinen problemet med å etablere identiteten til en høyttaler med taleegenskaper. Det er forskjellig fra talegjenkjenning, hvor målet er å identifisere de ordene blir sagt. Et eksempel på stemmegjenkjenning teknologi er å bygge sikkerhet, hvor en dør bare åpnes når en gitt person snakker inn i mikrofonen. Flere metoder kan benyttes for å utføre denne oppgaven.

frekvens Estimering

Den talt signalet har en ukjent støykomponent, som for eksempel bakgrunnsstøy og lydutstyr støy. Frekvens estimeringsmetoder beregne støykomponenten ved hjelp av teknikker som løse for egenvektorer, en type matematikk viktige i fysikk og engineering; å subtrahere støy fra inngangs for å få en tilnærmelse til det signal av interesse; og dekomponering av det signal som en sum av komplekse frekvenskomponenter. Den viktigste faktum om denne metoden er at den støyfri lyd av en gitt høyttaler er redusert til et mer håndterlig representasjon: stemmen intensitet på noen frekvenskomponenter (som tilfeldigvis er de mest intense seg.) Denne metoden fungerer bra når bakgrunnsstøy er et problem, og når ordene talte da systemet ble trent kanskje ikke akkurat de samme ordene talt når du prøver å godkjenne den som snakker.

Skjulte Markov Modeller

En skjult Markov modell alltid er i en av et sett av stater, men den nåværende tilstand er ikke synlig for observatøren. En slik modell er stadig å gjøre overganger fra den nåværende tilstand til den neste på priser, og med sannsynligheter, bestemmes av modellens parametere. Ved å gjøre en overgang, kan modellen avgi et utgangssignal med en kjent sannsynlighet. Den samme effekt kan genereres ved en overgang fra flere tilstander, med forskjellige sannsynligheter. I spesielle tilfelle av stemmegjenkjenning, avgir en skjult Markov modell utganger representerer fonemer med sannsynligheter som er avhengige av den tidligere sekvens over besøkte stater. En høyttaler ytre en sekvens av fonemer (dvs. snakker) tilsvarer den modellen som besøker en sekvens av tilstander og mitterende utganger som svarer til de samme fonemer. Denne metoden fungerer godt for å autentisere høyttaleren ved å ha ham utsi en sekvens av ord som danner fullstendige setninger.

Mønstergjenkjenning

Denne teknikken, blant de mest komplekse som brukes til stemmegjenkjenning, sammen to talestrømmer: The One talt ved godkjent høyttaler mens du trener systemet, og en uttalt av den ukjente høyttaler som forsøker å få tilgang. Høyttaleren ytrer de samme ordene når du trener systemet, og senere, når jeg prøver å bevise sin identitet. Datamaskinen justerer trening lyd stream med en nettopp fått (på kontoen for små variasjoner i rytme og for forsinkelser i begynnelsen å si). Deretter discretizes datamaskinen hver av de to bekker som en sekvens av rammer og beregner sannsynligheten for at hvert par av rammer er talt ved den samme høyttaleren ved å kjøre dem gjennom en flerlags perceptron - en bestemt type nettverk utdannet for denne oppgaven. Denne metoden fungerer godt i lav-støyforhold, og når høyttaleren er ytre nøyaktig de samme ordene brukes til å trene systemet.