Oesterreichisches Forschungsinstitut fuer Artificial Intelligence (OeFAI) Schottengasse 3, A-1010 Wien Tel.: +43-1-53361120, Fax: +43-1-5336112-77, Email: sec@ai.univie.ac.at ------------------------------------------------------------------------- VORTRAG ******* Juergen TROUVAIN, M.A. Universitaet des Saarlandes Saarbruecken NICHT-LINEARE MODELLIERUNG VON SPRECHTEMPO - IMPLIKATIONEN FUER SPRACHSYNTHESE In den meisten Sprachsynthesesystemen wird - wenn ueberhaupt - eine Aenderung der Sprechgeschwindigkeit durch eine lineare Anpassung der temporalen Struktur erreicht. In natuerlicher Sprache hingegen sind die Unterschiede zwischen ver- schiedenen Tempi als nicht-linear zu charakterisieren. So zeichnet sich z.B. schnelleres Sprechen hauptsaechlich durch weniger und auch kuerzere Pausen aus. Aenderungen in der prosodischen Struktur wie z.B. Wegfall prosodischer Phrasengrenzen oder De-Akzentuierung von Silben haben Einfluss auf die Dauer linguistischer Einheiten (wie z.B. Lautsegmente). Ein weiteres nicht-lineares Merkmal ist die sog. Elastizitaet der Lautdauern, die bei Vokalen ueblicherweise groesser ist als bei Konsonanten. Auf der phonemischen Ebene lassen sich Assimilationen, Reduktionen und Tilgungen von Lauten feststellen. Vor allem Funktionswoerter sind fuer solche segmentalen Prozesse anfaellig. Da ein schnelleres Tempo in aller Regel auch ein oekonomischeres Artikulieren nach sich zieht, hat dies auch Folgen fuer die spektralen Eigenschaften der Laute. Konkatenative Sprach- synthese mit Signalstuecken, die aus akzentuierter Position ent- nommen wurden, hinterlassen oft und vor allem bei schnellem Tempo einen Eindruck von Ueberartikulation. Beispiele fuer die o.g. Parameter werden durch Ergebnisse einer Pilot-Studie illustriert und Implikationen fuer (konkatenative) Sprachsynthese werden diskutiert. Zeit: Montag, 4.Oktober 1999, 18:30 Uhr pktl. Ort: OeFAI, Schottengasse 3, 1010 Wien 1. OESTERREICHISCHES FORSCHUNGSINSTITUT FUER ARTIFICIAL INTELLIGENCE o.Univ.-Prof.Dr.Robert Trappl