Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Text-to-Speech (TTS)
Système informatique convertissant le texte écrit en parole humaine synthétique par des algorithmes de traitement du langage naturel et de synthèse vocale.
Synthèse vocale
Production artificielle de parole humaine par des systèmes informatiques utilisant des modèles linguistiques et acoustiques pour générer des signaux audio.
Phonème
Unité minimale distinctive du son dans une langue, servant de base fondamentale pour la construction des mots en synthèse vocale.
Prosodie
Ensemble des caractéristiques supra-segmentales de la parole incluant intonation, rythme, accentuation et mélodie, essentielles pour une synthèse naturelle.
Synthèse concaténative
Approche de TTS assemblant des segments audio pré-enregistrés (diphones, syllabes) pour créer une parole continue avec haute qualité sonore.
Synthèse paramétrique
Méthode générant la parole à partir de modèles mathématiques paramétriques représentant les caractéristiques acoustiques du signal vocal.
Neural TTS
Systèmes de synthèse vocale utilisant des réseaux de neurones profonds pour générer directement des formes d'onde audio à partir du texte.
WaveNet
Architecture de réseau de neurones développée par DeepMind générant des formes d'onde audio échantillon par échantillon pour une synthèse vocale ultra-réaliste.
Tacotron
Architecture end-to-end de TTS basée sur l'attention, convertissant directement le texte en spectrogrammes mél avec une prosodie naturelle.
Vocoder
Algorithme ou système analysant et re-synthétisant la voix humaine, convertissant les représentations acoustiques en signaux audio compréhensibles.
Spectrogramme mél
Représentation visuelle du spectre fréquentiel du signal audio sur l'échelle mél, mimant la perception humaine de l'audition pour la TTS.
MFCC
Coefficients cepstraux à fréquence mél, caractéristiques acoustiques largement utilisées en reconnaissance et synthèse vocale pour représenter le signal vocal.
Voice cloning
Technique de TTS créant une synthèse vocale personnalisée imitant les caractéristiques uniques d'une voix spécifique à partir d'échantillons audio limités.
Synthèse par sélection d'unités
Méthode concaténative avancée sélectionnant dynamiquement les unités speech optimales parmi une vaste base de données pour maximiser la naturalité.
Synthèse HMM
Approche paramétrique utilisant les modèles de Markov cachés pour modéliser statistiquement les séquences acoustiques et générer la parole.
Synthèse articulatoire
Méthode de TTS simulant le processus physique de production de la parole humaine en modélisant les mouvements des articulateurs vocaux.
FastSpeech
Architecture de TTS non-autorégressive générant les spectrogrammes mél en parallèle pour une synthèse vocale rapide et de haute qualité.
Normalisation de texte
Prétraitement linguistique convertissant les symboles, nombres et abréviations en forme textuelle prononçable avant la synthèse vocale.