マルチモーダルトランスフォーマー
モダリティ埋め込み
元のモダリティ(テキスト、画像、音声)を示すためにトークン埋め込みに追加される特定のエンコーディングベクトルで、トランスフォーマーが各タイプのデータを区別して異なる方法で処理できるようにします。
← 戻る元のモダリティ(テキスト、画像、音声)を示すためにトークン埋め込みに追加される特定のエンコーディングベクトルで、トランスフォーマーが各タイプのデータを区別して異なる方法で処理できるようにします。
← 戻る