AI用語集
人工知能の完全辞典
オーディオ拡散モデル
ランダムな初期ノイズから高忠実度の音声波形を合成するために、拡散と段階的なノイズ除去プロセスを適用する生成的ニューラルネットワークアーキテクチャ。
条件付きスペクトログラム
拡散モデルで入力または条件として使用される音声信号の時間-周波数表現。反復的なノイズ除去プロセスが、一貫したスペクトル構造を再構築するように導かれる。
ニューラルボコーダ
スペクトログラムやメロディ特徴などの中間音響表現を連続的な音声波形に変換するニューラルネットワーク。オーディオ拡散パイプラインの最終段階で統合されることが多い。
音声拡散
自然な音声合成のために音声学的、韻律的、音色的なニュアンスを捉えることを目的とした、音声信号生成のための拡散モデルの専門的応用。
音楽拡散
和声、リズム、メロディ、音色を含む音楽コンテンツの生成に焦点を当てたオーディオ拡散のサブドメイン。楽譜やコードなどの構造情報で条件付けられることが多い。
分類器不要ガイダンス
条件付き予測と非条件付き予測の間を補間することで、拡散モデルの条件(テキスト、メロディなど)への適合性を強化する推論技術。生成の忠実度と制御を向上させる。
拡散タイムステップ
ノイズ付加または除去プロセスの段階を表す離散変数。0(純粋な信号)からT(純粋なノイズ)までの範囲を取り、各反復で除去すべきノイズを予測するためにニューラルネットワークを条件付ける。
音声潜在空間
エンコーダを介して得られる音声データの圧縮された抽象的な表現。計算の複雑さを軽減しながら意味的情報を保持するために、拡散プロセスが適用される空間。
音声インペインティング
拡散モデルを用いて、欠落または破損した音声信号のセクションを周囲の音声コンテキストに基づいて再生または補完する操作タスク。
音声超解像
拡散モデルが低解像度の音声信号の品質またはサンプリングレートを向上させ、妥当で一貫性のある高周波数詳細を追加するプロセス。
連続音声エンコーディング
離散波形を潜在空間内の連続ベクトルの集合に変換する表現方法で、音声生成モデルのための拡散プロセスの基礎として機能する。
テキスト-音声条件付け
拡散音声モデルがテキスト記述によって導かれ、対応する音声を生成する技術。テキストモダリティと聴覚モダリティを整合させるマルチモーダルアーキテクチャが必要。
ノイズ除去スコアマッチング
拡散モデルの基本的な学習目的で、ニューラルネットワークがノイズ付加入力に対するデータ分布の勾配(スコア)を予測することを学び、反復的なノイズ除去を可能にする。
確率的サンプリング
拡散モデルの推論方法で、各段階のノイズ除去にランダム成分を含み、生成の多様性を促進するが、アーティファクトを導入する可能性がある。
決定的サンプリング(DDIM)
より少ないノイズ除去ステップを決定的に実行することで生成プロセスを加速させる推論戦略。確率性を減らし、より再現性の高い結果を得る。
潜在拡散モデル
オートエンコーダによって学習された低次元の潜在空間で動作する拡散モデルの変種。音声のような高解像度データに対する学習と推論をより効率的にする。
音声のための畳み込みトランスフォーマー
局所的なパターンを捕捉する畳み込み層と長期的な依存関係を扱うアテンション機構を組み合わせたハイブリッドアーキテクチャで、音声拡散U-Netsのバックボーンとしてよく使用される。
音声生成パイプライン
条件(テキスト、メロディー)のエンコードから潜在空間での拡散、最後にボコーダーによるデコードまでの完全な操作シーケンスで、最終的な音声信号を生成する。
ノイズ再スケーリング
拡散プロセスの各ステップで追加されるノイズの分散を調整する技術で、音声モデルにおける学習の安定化と生成サンプルの品質向上に使用される。