オーディオ向けトランスフォーマー

📖

用語

Audio Spectrogram Transformer (AST)

スペクトログラム表現に直接アテンション機構を適用するTransformerアーキテクチャで、音声信号を2D画像として扱い分類タスクを実行する。

📖

用語

Conformer

音声認識のためのハイブリッドモデルアーキテクチャで、畳み込み、自己アテンション、フィードフォワードモジュールを組み合わせ、音声シーケンスの局所的および大域的な依存関係を両方捕捉する。

📖

用語

Wav2Vec 2.0

生音声データで事前学習された自己教師あり音声認識フレームワークで、ベクトル量子化を使用して音声言語の離散表現を学習する。

📖

用語

HuBERT

Hierarchical Hidden-Unit BERT、音響特徴のクラスタから潜在ユニットを予測することで階層的音声表現を学習する自己教師ありモデル。

📖

用語

Jukebox

TransformerとVQ-VAEに基づく生成モデルで、アーティストやジャンルのメタデータを条件として高忠実度ボイスを含む生音楽を生成可能。

📖

用語

Music Transformer

長い音楽シーケンスのモデリングに最適化された相対アテンション機構を備えたTransformerアーキテクチャで、構造的一貫性のある音楽作品を生成できる。

📖

用語

SpecAugment

音声モデルの正則化技術で、スペクトログラムに周波数と時間のマスキング変換を適用し、信号劣化に対するモデルの頑健性を向上させる。

📖

用語

Self-Attention sur Séquences Audio

音響ベクトルシーケンスへの自己アテンション機構の適用で、モデルが予測のために音声信号の異なる部分の重要度を動的に重み付けできるようにする。

📖

用語

オーディオトークン化

連続的な音声信号を離散的なトークン列に離散化するプロセス。VQ-VAEなどを介して行われ、トークンベースのTransformerアーキテクチャとの互換性を持たせる。

📖

用語

音声-テキストクロスアテンション

クエリが一つのモダリティ（例：テキスト）から、キーと値が別のモダリティ（例：音声）から来る注意メカニズム。音声認識や音声ナレーションモデルにおいて基本的な役割を果たす。

📖

用語

Perceiver IO オーディオ

可変長の音声シーケンスを固定サイズの潜在空間に変換してから予測を生成するPerceiver IOベースのアーキテクチャ。分類や文字起こしタスクに効率的。

📖

用語

音声用Squeeze-and-Excitation

音声データに適応したチャネル注意ブロック。スペクトログラム特徴マップの応答を動的に再較正するために、チャネル間の相互依存関係をモデル化する。

📖

用語

音声用畳み込みTransformer（CTT）

Transformerブロックに畳み込みを統合したアーキテクチャ。スペクトログラムの局所パターンを効果的に捕捉した後、自己注意を適用して大域的な依存関係を処理する。

📖

用語

音声対照学習（CLAP）

対照損失を使用して音声とテキストの表現を共有空間で整列させるマルチモーダル学習手法。ゼロショット音声分類を可能にする。

📖

用語

音声Transformerにおける因果的遅延

あるタイムステップの注意が現在と過去のタイムステップにのみ行えるというアーキテクチャ制約。ストリーミングやリアルタイム音声生成モデルに不可欠。

📖

用語

スペクトログラム用2D位置エンコーディング

スペクトログラムから抽出されたトークンの空間情報（時間と周波数）をエンコードする位置符号化技術。Transformerが音声信号の2D構造を理解できるようにする。

📖

用語

特定音声タスクのファインチューニング

大規模データベースで事前学習された音声Transformerを、音響イベント検出や話者識別などの特定タスクに適応させるプロセス。層を凍結または選択的に再学習する。

📖

用語

音声言語モデル（AudioLM）

音声生成を言語モデリングタスクとして扱うアプローチ。Transformerを用いて離散的な音響トークンを予測し、言語モデルがテキストを生成する方法と同様に機能する。

AI用語集