এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
Encodeur Audio
Module, souvent basé sur un VQ-VAE ou un autoencodeur, qui compresse une forme d'onde audio brute en une représentation latente de plus faible dimension, plus adaptée pour être traitée par le processus de diffusion.
Décodeur Audio
Réseau neuronal qui reconstruit une forme d'onde audio audible à partir de la représentation latente débruitée produite par le modèle de diffusion, finalisant ainsi le processus de génération.
Pas de Temps (Timestep) de Diffusion
Variable discrète représentant une étape spécifique dans le processus de bruitage ou de débruitage, contrôlant le niveau de bruit appliqué et guidant le modèle à travers la transformation du bruit pur en signal audio cohérent.
Inférence Guidée par Classifier
Méthode d'inférence qui utilise un classificateur pré-entraîné pour guider le processus de débruitage vers une sortie appartenant à une classe spécifique (par exemple, 'voix masculine', 'piano'), sans modifier les poids du modèle de diffusion.
Modèle de Diffusion à Débit Constant (Consistency Model)
Famille de modèles de diffusion conçus pour générer des échantillons de haute qualité en une seule étape ou en très peu d'étapes, en apprenant à maintenir la cohérence entre les différents niveaux de bruit, réduisant ainsi drastiquement le temps d'inférence.
Planner de Vélocité
Stratégie de planification pour le processus de débruitage qui détermine la séquence des pas de temps (timesteps) à utiliser lors de l'inférence, optimisant le compromis entre la qualité du son généré et le nombre d'étapes de calcul requises.
Audio à Haute Résolution
Objectif des modèles de diffusion audio avancés, visant à générer des formes d'onde avec des taux d'échantillonnage élevés (ex: 48kHz) et une grande profondeur de bits (ex: 24-bit), approchant ou dépassant la qualité des enregistrements professionnels.
Modèle de Diffusion Stochastique
Approche de diffusion où le processus de débruitage inclut une composante aléatoire à chaque étape, permettant une plus grande diversité et créativité dans les générations audio, au prix d'une reproductibilité plus faible.
নির্ধারক বিস্তার মডেল
বিস্তার প্রক্রিয়ার একটি প্রকরণ যেখানে শব্দ অপসারণ একটি পূর্বাভাসযোগ্য এবং এলোমেলোতা-মুক্ত পথ অনুসরণ করে, যা একই ইনপুটের জন্য ফলাফলের সামঞ্জস্য এবং স্থিতিশীলতা উন্নত করে, প্রায়শই সুনির্দিষ্ট পুনঃসংশ্লেষণ অ্যাপ্লিকেশনের জন্য ব্যবহৃত হয়।
বক্তৃতা বিস্তার মডেল
অডিও বিস্তার মডেলগুলির একটি বিশেষীকরণ যা একচেটিয়াভাবে বক্তৃতা ডেটাতে প্রশিক্ষিত, যার লক্ষ্য বক্তা, স্বরভঙ্গি এবং আবেগের উপর সূক্ষ্ম নিয়ন্ত্রণ সহ প্রাকৃতিক এবং অভিব্যক্তিপূর্ণ কণ্ঠস্বর তৈরি করা।
সঙ্গীত বিস্তার মডেল
সঙ্গীত তৈরিতে বিস্তারের প্রয়োগ, যেখানে মডেলটি সম্পূর্ণ সঙ্গীত ট্র্যাক বা সামঞ্জস্যপূর্ণ যন্ত্রের নমুনা রচনা করার জন্য সুরেলা, ছন্দময় এবং মেলোডিক কাঠামো শেখে।
রৈখিক নমুনায়ন
একটি অনুমান কৌশল যেখানে প্রক্রিয়ার টাইমলাইনে শব্দ অপসারণের সময় ধাপগুলি সমানভাবে ব্যবধানে থাকে, চূড়ান্ত অডিও গুণমানের জন্য একটি সরল কিন্তু কখনও কখনও অপ্টিমাল নয় এমন পদ্ধতি।
লগারিদমিক নমুনায়ন
একটি অনুমান কৌশল যা প্রক্রিয়ার শুরুতে (যখন সংকেত খুব শোরগোলপূর্ণ হয়) শব্দ অপসারণের ধাপগুলি কেন্দ্রীভূত করে এবং শেষের দিকে সেগুলিকে ছড়িয়ে দেয়, যা নিম্ন-ফ্রিকোয়েন্সি অডিও কাঠামো ক্যাপচার করার জন্য আরও কার্যকর বলে প্রমাণিত হয়েছে।