AI用語集
人工知能の完全辞典
潜在拡散モデル
オートエンコーダを介して取得した低次元の潜在空間で動作する拡散アーキテクチャで、計算コストを大幅に削減しながらも高い画像生成品質を維持する。
知覚エンコーダ
LDMのオートエンコーダの部分で、高次元の画像(ピクセル)を低次元の表現(潜在)に変換し、本質的なセマンティック情報を捕捉する。
クロスアテンション
テキスト(CLIP埋め込みなど)の異種情報を統合することで、潜在拡散モデルが柔軟かつ正確に画像生成をガイドできるようにする注意メカニズム。
ノイズスケジューラ
順過程の各時間ステップで追加されるノイズの分散を定義するアルゴリズムで、LDMにおける収束速度と最終的な生成品質に影響を与える。
ノイズ回復(デノイジング)
U-Net拡散モデルの主なタスクで、与えられた時間ステップで潜在に追加されたノイズを予測し、それを差し引くことで信号を段階的にデノイズする。
階層的U-Net
残差接続と注意メカニズムを備えたU字形のニューラルネットワークアーキテクチャで、各デノイジングステップでノイズを予測するために拡散モデルのコアとして使用される。
分類器なしガイダンス(CFG)
モデル自身の対数確率の勾配を使用してプロンプトへの適合性を高める条件付け手法で、外部分類器の必要性をなくし、テキストへの忠実度を向上させる。
Stable Diffusion
潜在拡散モデルアーキテクチャの有名なオープンソース実装で、VAE、U-Net、CLIPによるテキスト条件付けを組み合わせて、アクセシブルで高性能な画像生成を実現する。
確率的スコアマッチング (SDE)
拡散モデルのための代替理論的枠組み。確率微分方程式を解くことでデータ密度の勾配(スコア)を学習する。
潜在空間リサンプリング
生成の一貫性と品質を向上させるための推論技術。潜在空間内のノイズ除去経路を動的に変更し、時間ステップやガイダンスを調整する。
時間蒸留
モデルの圧縮プロセス。遅い大型拡散モデルを使用して、より少ないノイズ除去ステップで同等の品質の画像を生成できる小型で高速なモデルを訓練する。
一貫性のあるデノイジング
常微分方程式(ODE)を解いてノイズ除去プロセスを近似する推論手法のファミリー。1ステップまたは非常に少ないステップで高品質な生成を可能にする。
プロンプトトークン化
前処理ステップ。入力テキストを数値識別子(トークン)のシーケンスに変換し、言語モデル(例:CLIP)によって埋め込みに変換される。
KL再構成損失
LDMのVAE訓練における正則化項。学習された潜在分布と事前分布(通常は標準ガウス分布)間のカルバック・ライブラーダイバージェンスを測定する。
テキスト埋め込み空間
テキスト(プロンプト)が埋め込みとして表現される高次元ベクトル空間。クロスアテンション機構を介して拡散モデルの条件付けとして機能する。