Teknologi

Hva er stemmegjenkjenning?

Stemmegjenkjenning kan referere til en av to typer informatikk: rettsmedisinsk stemmeidentifikasjon eller tale-til-tekst-evne.Denne artikkelen tar for seg sistnevnte definisjon.

Stemmegjenkjenning, eller talegjenkjenning i dette tilfellet, er en datateknologi som bruker lydinngang for å legge inn data i stedet for et tastatur.Å snakke inn i en mikrofon produserer for eksempel samme resultat som å skrive ord manuelt med et tastatur.Enkelt sagt, stemmegjenkjenningsprogramvare er designet med en intern database med gjenkjennelige ord eller uttrykk.Programmet samsvarer med lydsignaturen til tale med tilsvarende oppføringer i databasen.

Selv om det å gjøre tale til tekst kan høres enkelt ut, er det en ekstremt vanskelig oppgave.Problemet ligger i det tilnærmet uendelige utvalget av individuelle talemønstre og aksenter, forsterket av den naturlige menneskelige tendensen til å kjøre ord sammen.

En illustrasjon av de iboende utfordringene med stemmegjenkjenningsprogramvare vises på en t-skjorte laget av Apple-forskere.Skjorten lyder, jeg hjalp Apple vrak en fin strand.Når jeg snakket høyt, høres det ut som, Jeg hjalp Apple til å gjenkjenne tale.

Ulike modeller for stemmegjenkjenningsprogramvare brukes til en rekke applikasjoner, fra personlig diktat til kommersiell automatisert samtalruting, fra å hjelpe funksjonshemmede til sport og nyhetshendelseteksting.Hver modell oppfører seg annerledes og har sine egne evner og grenser.

Stemmegjenkjenningsprogrammer som krever at brukeren trene programvaren for å gjenkjenne deres spesielle stiliserte talemønstre kalles høyttaleravhengige -systemer.Enkeltpersoner bruker ofte denne typen programmer hjemme eller på kontoret.E -post, memoer, bokstaver, data og tekst kan legges inn ved å snakke inn i en mikrofon.

Noen stemmegjenkjenningssystemer, kalt Diskrete tale Systemer, krever at brukeren snakker tydelig og sakte og for å skille ord. Kontinuerlig tale Systemer er designet for å forstå en mer naturlig måte å snakke.

Diskrete tale Voice Recognition Systems er mye brukt til kundeserviceruting.Systemet er høyttaleruavhengig , men forstår bare et lite basseng med ord eller uttrykk.Innringeren får et valg om å svare på et spørsmål, vanligvis med ja eller nei.Etter å ha mottatt et svar, eskalerer systemet den som ringer til neste nivå.Hvis innringeren svarer med et unikt svar, er det automatiserte svaret vanligvis, beklager, jeg forsto deg ikke;Prøv igjen, med en gjentakelse av spørsmålet og tilgjengelige svar.Denne typen stemmegjenkjenning blir også referert til som Grammatikkbegrenset anerkjennelse.

Kontinuerlig tale er en mer sofistikert form for stemmegjenkjenningsprogramvare, der den som ringer kan snakke naturlig for å forklare et problem eller be om en tjeneste.Dette programmet er designet for å plukke ut stikkord eller uttrykk og lage en statistisk best gjett for hva kunden vil ha.Å snakke tydelig hjelper stemmegjenkjenning når det gjelder å identifisere behovet.Denne typen system har en langt mer intensiv database enn diskrete talesystemer og blir også referert til som Naturlig språkgjenkjenning.

Automatisk talegjenkjenning (ASR) er en modell for stemmegjenkjenning designet for diktat.Denne programvaren skiller seg fra tidligere modeller ved at den ikke streber etter å forstå hva som blir sagt, bare for å identifisere ordene som er talt.Siden mange ord i engelskspråkene høres ut, blir det lett gjort feil.Imidlertid investerer store selskaper som Microsoft, med det tidligere selskapet som skaffer seg sistnevnte.Mindre spillere inkluderer blant annet Fonix -tale, Aculab og Verbio, med store selskapersom IBM og den nevnte Microsoft også investerer i teknologien.Selv om mange fremdeles føler at det er mer problemer å trene programvare og rette feil enn å bare bruke et tastatur, kommer en tid når stemmegjenkjenningsprogramvare sannsynligvis vil lukke det gapet.Å forsterke tastaturer med diskriminerende evne til å bruke tale vil sannsynligvis bli vanlig.

Stemmegjenkjenningsprogramvare får popularitet når den blir mer sofistikert.Det er spesielt nyttig i virksomheten der den kan erstatte en live operatør for å trakte samtaler, spre informasjon, ta bestillinger og utføre andre svært nyttige funksjoner.Imidlertid får det også fordel som et stasjonært program, hjulpet med anerkjent programvare som ScanSofts, DragonNaturallySpeaking og IBMS ViVoice