マルチモーダルトランスフォーマー
BLIP
ノイズをフィルタリングしデータ品質を向上させるために疑似キャプションを生成するBootstrapping Language-Image Pre-trainingフレームワークで、マルチモーダルエンコーダーと画像-テキストデコーダーを使用する。
← 戻るノイズをフィルタリングしデータ品質を向上させるために疑似キャプションを生成するBootstrapping Language-Image Pre-trainingフレームワークで、マルチモーダルエンコーダーと画像-テキストデコーダーを使用する。
← 戻る