Delelementer i et system til talesyntese.

.

Talesyntese er frembringelse af kunstig tale ved hjælp af elektronisk og elektro-akustisk teknik. Man skelner mellem ægte syntese, hvori der ikke indgår brug af menneskestemmer, og syntese, der frembringes ved sammenkædning af indspillede lydsegmenter (difoner). Den sidstnævnte syntesemetode dominerer i dag i praktiske systemer.

Der blev i 1998 iværksat et forsknings- og udviklingsprojekt med det formål at etablere og produktmodne grundlæggende programmel til dansk syntetisk tale. For talegenkendelse er man indtil videre henvist til at videreudvikle udenlandsk produceret programmel, der først skal "lokaliseres" (trænes) til danske trifoner, dansk sprog og specifikke anvendelser. Bearbejdningen er imidlertid så bekostelig, at der er tvivl om, hvorvidt markedets størrelse er tilstrækkelig stort for privatfinansieret udvikling.

Man har arbejdet med mekaniske og akustiske modeller for talesyntese helt tilbage til 1700-tallet (se syntetisk tale og talemaskine), men udviklingen tog først for alvor fart med computerens indførelse. I begyndelsen blev talesyntesens lydgenerering baseret på modellering af de akustiske forhold ved tale, den såkaldte formantbaserede talesyntese. Senere har sammenføjning af indspillede lydsegmenter været meget anvendt. Hvert lydsegment, en såkaldt difon, består af et udsnit fra et talesignal med en udstrækning, der begynder omkring midten af et fonem og slutter omkring midten af det efterfølgende fonem. Akustisk set indeholder en difon information om overgangen mellem de enkelte fonemer, hvilket er vigtigt for den syntetiske tales naturlighed. Det lydmæssige basismateriale for difonteknikken består af en database med store mængder akustisk tale, hvorfra difoner — i alt flere tusinde — kan hentes.

Grundlaget for computerens syntetiske talesignal er en skreven tekst, som transformeres via flere forskrifter til en sammenføjet kæde af difoner. Først ekspanderer en algoritme alle forkortelser, specialtegn og lignende til tilsvarende fuldtekst, evt. ved samtidig at udnytte information fra den omgivende tekst. Derefter omsættes de enkelte ord til en kæde af fonemer, fx ved opslag i en database over udtaler for ord og egennavne samt ved at udføre en syntaktisk analyse af teksten mhp. bestemmelse af ordkategorier. Videre forsynes fonemkæden med en række markeringer, der bl.a. fastlægger, på hvilken måde det syntetiske talesignal skal udtales med hensyn til sætningsrytme og toneleje, karakteriseret ved hhv. fonemernes varighed og talesignalets grundtone (pitch).

Til slut ombrydes fonemkæden til en tilsvarende difonkæde, og de enkelte lydsegmenters styrke, tidsmæssige varighed og overgange modificeres, for at den computerdannede tale skal lyde så naturlig og forståelig som mulig. Det syntetiske talesignal genereres herefter på computeren, hvorfra det på digital form sendes til fx et lydkort i en pc.

Inden for talesyntese arbejdes der på at etablere længere enheder, flere variationer og herunder at inkludere enheder fra andre sprog, specielt engelsk. Det vil give større naturlighed og mulighed for oplæsning af tekster med indhold af fremmedord. Talesyntese har og forventes at få en række anvendelser, fx adresseoplysning, hvor man taster et telefonnummer og får oplæst navn, stilling og adresse på personen med dette nummer, navigationssystem, hvor et køretøjs fører løbende orienteres om vejen mod destinationen, og oplæseservice af tekst fra computer.

Læs mere i Den Store Danske

Kommentarer

Kommentarer til artiklen bliver synlige for alle. Undlad at skrive følsomme oplysninger, for eksempel sundhedsoplysninger. Fagansvarlig eller redaktør svarer, når de kan.

Du skal være logget ind for at kommentere.

eller registrer dig