Internett

Hva er en akustisk modell?

En akustisk modell er egentlig et kart over stemmen i forhold til en serie trykte ord.Denne teknologien brukes i talegjenkjenningsprogrammer for å hjelpe en datamaskin med å lære å gjenkjenne en tale mønstre.En akustisk modell er en av de to hovedfilene som er nødvendige for å kjøre et talegjenkjenningsprogram;Den andre er språkmodellen, som indikerer sannsynlige ord og talemønstre som kan brukes av høyttaleren.Disse modellene opprettes ved å sammenligne lyddetaljene til en muntlig lydfil med teksten til de talte ordene.

Talegjenkjenningsprogramvare er programvare designet for å gjenkjenne og transkribere eller svare på ordene en person sier.Mange operativsystemer er designet med innebygde grunnleggende talegjenkjenningsmuligheter som brukeren kan slå av og på.Talegjenkjenningsfunksjoner på operativsystemer gir brukeren vanligvis muligheten til å kontrollere datamaskinen og skrive ord på skjermen ved hjelp av stemmen hennes.

For å få tilgang til talegjenkjenningsprogramvare, trenger en bruker en mikrofon for å få stemmen sin til datamaskinen, pluss et programsom behandler lyden.Mens mange datamaskiner har innebygde mikrofoner, gir en ekstern headset-mikrofon brukeren fordelen av klarere stemmelyd og friheten til å bevege seg rundt i rommet mens han snakker.Frittstående talesgjenkjenningsprogramvaremerker inkluderer Lumenvox , Loquendo , og Dragon .

De fleste talegjenkjenningsprogrammer har akustisk modellprogrammering som gjør at programmet kan gjenkjenne variasjoner i uttalen.De bruker mønstre i lyden av høyttalerne for å identifisere ord i tale.Mange er designet med Setup -programvare laget for å hjelpe brukeren med å lage en akustisk modell designet for å tolke sin egen stemme.Noen avanserte talegjenkjenningsprogrammer kan identifisere og tolke flere språk, ofte med en liten mengde lydinformasjon.Jo mer avansert et talegjenkjenningsprogram, desto mer sannsynlig er det å tolke ord nøyaktig basert på konteksten, inkludert hvor det i en setning snakkes.

Studiemålet som utvikler talegjenkjenningsteknologi kalles Computational Linguistics.Beregningsspråklig innebærer studier og design som skaper programvare programmert til å forstå menneskelig tale.Dette feltet inkluderer ofte informasjon fra studiet av psykologi for å lage akustiske modeller som mer nøyaktig kan tolke tale.

Ordet akustisk refererer generelt til alt som har med lyd å gjøre.Selv om akustiske modeller oftest brukes i talegjenkjenning, kan de også brukes i musikk.En akustisk modell av et musikkspor kan identifisere egenskaper som beats per minutt, de musikalske nøklene eller dominerende plasser i musikken.Denne informasjonen kan brukes av et dataprogram for å identifisere et musikkspor, eller det kan brukes til å løst bestemme sjangeren som musikken sannsynligvis er kategorisert i.Akustiske modeller brukes også i et studier felt kalt psykoakustikk, der forskere håper å lære å strukturere musikk som forutsigbart påvirker hjernen.