„Text-to-Speech“ (TTS), auf Deutsch „Text-zu-Sprache“, bezeichnet eine Technologie, die geschriebenen Text in gesprochene Sprache umwandelt. TTS-Systeme ermöglichen es Computern, Texte laut vorzulesen, wodurch sie in vielen Anwendungen, einschließlich Sprachassistenten, E-Book-Readern und Navigationssystemen, eingesetzt werden.
Moderne TTS-Systeme verwenden häufig neuronale Netzwerkarchitekturen, insbesondere Deep Learning, um natürlicher klingende menschliche Stimmen zu erzeugen. Dies unterscheidet sich von älteren Systemen, die auf konkatenierte Audiosegmente angewiesen waren und oft weniger natürlich klangen.
Die Qualität und Natürlichkeit von TTS-Systemen haben sich in den letzten Jahren erheblich verbessert, und sie können heute in verschiedenen Sprachen, Dialekten und Stimmlagen Sprache generieren. Einige fortschrittliche Systeme sind sogar in der Lage, Emotionen oder besondere Betonungen in die generierte Sprache einzufügen.