マルチモーダルの解釈可能性
視覚言語グラウンディング
言語シンボル(単語、フレーズ)を視覚データ内の具体的なエンティティや概念に固定するプロセス。テキストと画像を結びつけるモデルの説明が意味的に正しく、理解可能であるために不可欠。
← 戻る言語シンボル(単語、フレーズ)を視覚データ内の具体的なエンティティや概念に固定するプロセス。テキストと画像を結びつけるモデルの説明が意味的に正しく、理解可能であるために不可欠。
← 戻る