AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
オーディオトランスフォーマー
音声信号処理用に適応されたトランスフォーマーアーキテクチャ。音声データの時間的または周波数表現に対してアテンション機構を使用。
用語
スペクトログラムトランスフォーマー
スペクトログラムに直接操作するトランスフォーマーの変種。パッチに分割して埋め込みシーケンスとして処理し、音声分類に使用。
用語
Wav2Vec 2.0
生の波形に量子化マスキングを使用したトランスフォーマーアーキテクチャを採用した、音声表現のための自己教師あり学習モデル。
用語
Whisper
68万時間の弱い教師ありで転写された音声データで訓練された、音声認識と音声テキスト翻訳のための堅牢なトランスフォーマーモデル。
用語
AudioLM
離散的な音響および意味表現に階層的トランスフォーマーを使用する、音声生成のための言語のようなモデル。
用語
Encodec
高忠実度の音声圧縮と再構築のための残差量子化を備えたトランスフォーマーベースのニューラルコーデック。
用語
VALL-E
3秒の音声プロンプトから高品質な音声を生成するためにトランスフォーマーを使用するニューラルコーデック言語音声合成モデル。
用語
Wav2Vec-U
転写なしで事前学習されたwav2vec 2.0モデルを使用するASRのための教師なしアプローチ。暗黙的な音素アライメントを活用。
用語
MusicGen
オーディオトークナイザーを使用し、テキスト説明やメロディで制御可能な音楽生成のための条件付きTransformerモデル。
用語
MERT
Music Envelope Representation Transformer、マルチスケール表現を使用する音楽理解のための自己教師あり事前学習モデル。
用語
Spec2Vec
分類および音声検索タスクのためにスペクトログラムをベクトル埋め込みに変換するTransformerアーキテクチャ。
🔍