Synthèse vocale

📖

termes

Text-to-Speech (TTS)

Système informatique convertissant le texte écrit en parole humaine synthétique par des algorithmes de traitement du langage naturel et de synthèse vocale.

📖

termes

Production artificielle de parole humaine par des systèmes informatiques utilisant des modèles linguistiques et acoustiques pour générer des signaux audio.

📖

termes

Phonème

Unité minimale distinctive du son dans une langue, servant de base fondamentale pour la construction des mots en synthèse vocale.

📖

termes

Prosodie

Ensemble des caractéristiques supra-segmentales de la parole incluant intonation, rythme, accentuation et mélodie, essentielles pour une synthèse naturelle.

📖

termes

Synthèse concaténative

Approche de TTS assemblant des segments audio pré-enregistrés (diphones, syllabes) pour créer une parole continue avec haute qualité sonore.

📖

termes

Synthèse paramétrique

Méthode générant la parole à partir de modèles mathématiques paramétriques représentant les caractéristiques acoustiques du signal vocal.

📖

termes

Neural TTS

Systèmes de synthèse vocale utilisant des réseaux de neurones profonds pour générer directement des formes d'onde audio à partir du texte.

📖

termes

WaveNet

Architecture de réseau de neurones développée par DeepMind générant des formes d'onde audio échantillon par échantillon pour une synthèse vocale ultra-réaliste.

📖

termes

Tacotron

Architecture end-to-end de TTS basée sur l'attention, convertissant directement le texte en spectrogrammes mél avec une prosodie naturelle.

📖

termes

Vocoder

Algorithme ou système analysant et re-synthétisant la voix humaine, convertissant les représentations acoustiques en signaux audio compréhensibles.

📖

termes

Spectrogramme mél

Représentation visuelle du spectre fréquentiel du signal audio sur l'échelle mél, mimant la perception humaine de l'audition pour la TTS.

📖

termes

MFCC

Coefficients cepstraux à fréquence mél, caractéristiques acoustiques largement utilisées en reconnaissance et synthèse vocale pour représenter le signal vocal.

📖

termes

Voice cloning

Technique de TTS créant une synthèse vocale personnalisée imitant les caractéristiques uniques d'une voix spécifique à partir d'échantillons audio limités.

📖

termes

Synthèse par sélection d'unités

Méthode concaténative avancée sélectionnant dynamiquement les unités speech optimales parmi une vaste base de données pour maximiser la naturalité.

📖

termes

Synthèse HMM

Approche paramétrique utilisant les modèles de Markov cachés pour modéliser statistiquement les séquences acoustiques et générer la parole.

📖

termes

Synthèse articulatoire

Méthode de TTS simulant le processus physique de production de la parole humaine en modélisant les mouvements des articulateurs vocaux.

📖

termes

FastSpeech

Architecture de TTS non-autorégressive générant les spectrogrammes mél en parallèle pour une synthèse vocale rapide et de haute qualité.

📖

termes

Normalisation de texte

Prétraitement linguistique convertissant les symboles, nombres et abréviations en forme textuelle prononçable avant la synthèse vocale.

Glossaire IA

Text-to-Speech (TTS)