Skip to main content

Hva er de forskjellige talegjenkjenningsteknikkene?

Flere talegjenkjenningsteknikker brukes til å fange opp talte ord og konvertere dem til data som kan brukes av et program.Det er tre brede måter å analysere tale i et forsøk på å finne ut hva som blir sagt.Den første kalles diskret tale, noe som betyr at bare et enkelt ord snakkes om gangen.Den andre er kjent som tilkoblet tale, og ord må snakkes på en viss måte som skal forstås.Endelig er det kontinuerlig tale, og det er slik de fleste normalt snakker.

Den vanligste algoritmen som brukes til for alle typer talegjenkjenningsteknikker er den skjulte Markov -modellen (HMM).Dette systemet involverer store datatrær av fonemer, eller grunnleggende lyder og stavelser, som er delt på den statistiske sannsynligheten for en lyd etter en annen.Ved å sammenligne hvert fonem med en node i datatreet til lyder, kan det faktiske fullførte ordet bestemmes med en høy nøyaktighetshastighet på relativt kort tid.

Et problem som er vanskelig å overvinne med noen talegjenkjenningsteknikker er erIsolere hvor et ord starter og slutter.Denne oppgaven er komplisert av bakgrunnsstøy i rommet og det faktum at noen stavelser har en lydsignatur som ligner en pause mellom ord.Av denne grunn er diskrete og tilkoblede talegjenkjenningsteknikker de mest nøyaktige.

En annen faktor som skiller forskjellige talegjenkjenningsteknikker er spørsmålet om programvareordforråd.Programvare som tolker tale kan enten ha et veldig begrenset ordforråd med høy nøyaktighet, eller et stort ordforråd som må matches med en spesifikk brukers individuelle talemønstre.Når et program bruker HMM -metoden for å sette sammen ord, jo færre antall ord som forstås, jo mer nøyaktig kan programmet være.Dette er metoden som de fleste automatiserte telefonsystemer bruker for å tyde tall eller svar på spørsmål.

Talegjenkjenningsteknikker som forstår et stort ordforråd er vanligvis designet for å samhandle med veldig få eller bare en bruker.Dette er fordi programmet må få opplæring i å forstå talemønstrene til personen som snakker.Opplæringen innebærer å lese ferdiglagde avsnitt av tekst til programvaren.Ordene som blir lest er kjent, så programmet er i stand til å bygge en statistisk modell av fonemer som er spesifikke for brukeren.Dette gir programmet en mye bedre sjanse til å forstå brukeren, men det kan også hindre programmene som forståelse av mennesker som det ikke har trent med.

Det vanskeligste av talegjenkjenningsteknikkene tolker kontinuerlig eller naturlig tale.Mange mennesker har en tendens til å kjøre ord sammen og snakke i forskjellige hastigheter, så nøyaktigheten av programmer som oversetter kontinuerlig tale er lavere enn for de andre metodene.Fortsatt eksisterer det programmer som kan oversette denne typen tale, noen av dem bruker uklar logikk og nevrale nettverk for å gjenkjenne mønstre og isolere ord.