AI用語集
人工知能の完全辞典
ビデオ拡散モデル
時空間データに拡散プロセスを適用する生成アーキテクチャで、ビデオシーケンスの画像に段階的にノイズを追加し、その後ノイズ除去を学習して一貫性のあるビデオを再構築または作成する。
時空間潜在拡散
圧縮された潜在空間で動作するビデオ拡散モデルの変種で、生ピクセルではなく低次元表現にノイズ付加と除去プロセスを適用することで計算の複雑さを軽減する。
3Dアテンション
ビデオの空間次元(高さ、幅)と時間次元(時間)を同時に処理する注意メカニズムで、モデルが異なる時点での様々な領域の重要度を重み付けし、時空間依存関係を捉えることを可能にする。
時間埋め込み
時間情報(拡散ステップ、シーケンス内の位置)をベクトル形式でエンコードし、ネットワークに注入する技術で、時間の経過に伴う一貫性と動きを維持するために生成プロセスを導く。
前フレーム条件付きノイズ除去
ビデオフレームのノイズ予測が前フレームのノイズ除去版によって条件付けされる戦略で、生成された連続する画像間の強い連続性と時間的一貫性を保証する。
3D U-Netアーキテクチャ
ビデオデータに適応した畳み込みニューラルネットワーク構造で、3D残差接続とエンコーダ-デコーダ経路を組み合わせ、ノイズ除去時に複数の空間的・時間的スケールのコンテキストを効果的に捉える。
時空間潜在空間
ビデオシーケンスの圧縮された抽象的な表現で、空間情報と時間情報が低次元のベクトルまたは特徴マップにエンコードされ、ビデオの生成や操作の基盤として機能する。
ビデオClassifier-Freeガイダンス
明示的な分類器なしでビデオ生成を制御する方法で、条件付き(例:テキスト)と非条件付きの両方のデータでモデルを訓練し、それらの予測間を補間してプロンプトへの適合性を調整しながら多様性を保持する。
時間的拡散スケジューリング
各フレームまたは時間セグメントに割り当てるノイズ除去ステップ数の計画。動きの複雑さに基づいて、生成されるビデオの品質と全体的な一貫性を最適化するために、均一または適応的に設定可能。
拡散による時間的超解像
拡散モデルを適用してビデオのフレームレート(fps)を向上させる手法。既存のフレーム間の動きと変化を現実的に補間する一貫性のある中間フレームを生成する。
拡散によるビデオインペインティング
拡散モデルを使用してビデオシーケンス内の欠落またはマスクされた領域を埋めるプロセス。周囲のフレームのコンテキストに基づいて、空間的および時間的に一貫性のあるピクセルを生成する。
潜在運動モデリング
ビデオ内の動きを潜在空間で直接モデル化および生成する技術。連続するフレームの潜在コード間の変位や変換を予測し、それらを画像にデコードする。
制約による時間的一貫性
モデルの損失関数に明示的なペナルティまたは制約を追加するアプローチ。隣接フレーム間の動きに関連しない外観の変化(色、テクスチャなど)を抑制し、視覚的安定性を促進する。
時空間ノイズ分解
モデルによって追加および予測されるノイズを空間成分(外観)と時間成分(動き)に分解する高度な方法。動的ビデオのより細かい制御と堅牢な生成を可能にする。
拡散潜在変数上の自己回帰
ビデオをフレームごとに自己回帰的に生成するハイブリッド戦略。各潜在フレームは、前の潜在フレームを条件とする拡散ステップによって生成され、自己回帰の一貫性と拡散の品質を組み合わせる。
時間的特徴正規化
3D U-Netの特徴マップの時間次元に適用される正規化層。シーケンスの異なる時間ステップ間で活性化分布の一貫性を保証することで、学習を安定化させる。