拡散を用いたオーディオ生成

📖

用語

オーディオエンコーダ

VQ-VAEやオートエンコーダに基づくモジュールで、生のオーディオ波形をより低次元の潜在表現に圧縮し、拡散プロセスで処理するのに適したものにします。

📖

用語

オーディオデコーダ

拡散モデルによって生成されたノイズ除去された潜在表現から、聞き取れるオーディオ波形を再構築し、生成プロセスを完了するニューラルネットワークです。

📖

用語

拡散のタイムステップ

ノイズ付加またはノイズ除去プロセスの特定のステップを表す離散変数で、適用されるノイズのレベルを制御し、純粋なノイズから一貫したオーディオ信号への変換をモデルに案内します。

📖

用語

分類器によるガイド付き推論

事前学習された分類器を使用してノイズ除去プロセスを特定のクラス（例：「男性の声」「ピアノ」）の出力に向けて案内する推論方法で、拡散モデルの重みを変更せずに行われます。

📖

用語

一定速度拡散モデル（コンシステンシーモデル）

異なるノイズレベル間の一貫性を維持することを学習し、1ステップまたは少数ステップで高品質なサンプルを生成するよう設計された拡散モデルのファミリーで、推論時間を大幅に削減します。

📖

用語

ベロシティプランナー

推論時に使用するタイムステップのシーケンスを決定するノイズ除去プロセスのスケジューリング戦略で、生成される音質と必要な計算ステップ数の間のトレードオフを最適化します。

📖

用語

高解像度オーディオ

高度な拡散オーディオモデルの目標で、高サンプリングレート（例：48kHz）と高いビット深度（例：24ビット）の波形を生成し、プロの録音品質に近づくかそれを上回ることを目指します。

📖

用語

確率的拡散モデル

各ステップで確率的成分を含むノイズ除去プロセスを採用する拡散アプローチで、再現性は低くなるものの、オーディオ生成の多様性と創造性を高めます。

📖

用語

決定的拡散モデル

拡散プロセスの変種であり、ノイズ除去が予測可能でランダム性のない軌跡に従うもの。これにより、同じ入力に対する結果の一貫性と安定性が向上し、精密な再合成アプリケーションなどでよく使用される。

📖

用語

音声拡散モデル (Speech Diffusion Model)

音声データのみで訓練されたオーディオ拡散モデルの専門化版。話者、イントネーション、感情を細かく制御しながら、自然で表現豊かな音声を生成することを目的とする。

📖

用語

音楽拡散モデル (Music Diffusion Model)

拡散を音楽生成に応用したもの。モデルが和声、リズム、メロディの構造を学習し、一貫性のある楽曲全体や楽器サンプルを作曲する。

📖

用語

線形サンプリング (Linear Sampling)

ノイズ除去のタイムステップがプロセスのタイムライン上で均等に配置される推論戦略。シンプルなアプローチだが、最終的な音声品質の点では時に非最適となる場合がある。

📖

用語

対数サンプリング (Log-Sampling)

ノイズ除去のステップをプロセスの初期（信号が非常にノイズが多い時）に集中させ、終盤では間隔を広くする推論戦略。低周波の音声構造を捉える上でより効果的であることが証明されている。

AI用語集