オーディオトランスフォーマー

📖

用語

オーディオトランスフォーマー

音声信号処理用に適応されたトランスフォーマーアーキテクチャ。音声データの時間的または周波数表現に対してアテンション機構を使用。

📖

用語

スペクトログラムトランスフォーマー

スペクトログラムに直接操作するトランスフォーマーの変種。パッチに分割して埋め込みシーケンスとして処理し、音声分類に使用。

📖

用語

Wav2Vec 2.0

生の波形に量子化マスキングを使用したトランスフォーマーアーキテクチャを採用した、音声表現のための自己教師あり学習モデル。

📖

用語

Whisper

68万時間の弱い教師ありで転写された音声データで訓練された、音声認識と音声テキスト翻訳のための堅牢なトランスフォーマーモデル。

📖

用語

AudioLM

離散的な音響および意味表現に階層的トランスフォーマーを使用する、音声生成のための言語のようなモデル。

📖

用語

Encodec

高忠実度の音声圧縮と再構築のための残差量子化を備えたトランスフォーマーベースのニューラルコーデック。

📖

用語

VALL-E

3秒の音声プロンプトから高品質な音声を生成するためにトランスフォーマーを使用するニューラルコーデック言語音声合成モデル。

📖

用語

Wav2Vec-U

転写なしで事前学習されたwav2vec 2.0モデルを使用するASRのための教師なしアプローチ。暗黙的な音素アライメントを活用。

📖

用語

MusicGen

オーディオトークナイザーを使用し、テキスト説明やメロディで制御可能な音楽生成のための条件付きTransformerモデル。

📖

用語

MERT

Music Envelope Representation Transformer、マルチスケール表現を使用する音楽理解のための自己教師あり事前学習モデル。

📖

用語

Spec2Vec

分類および音声検索タスクのためにスペクトログラムをベクトル埋め込みに変換するTransformerアーキテクチャ。

AI用語集