マルチモーダル翻訳
画像キャプション生成
画像のコンテンツを記述するテキスト説明を自動生成する技術。コンピュータビジョンと自然言語処理を組み合わせる。現代のモデルはCNNやViTエンコーダーとトランスフォーマーデコーダーを使用する。
← 戻る画像のコンテンツを記述するテキスト説明を自動生成する技術。コンピュータビジョンと自然言語処理を組み合わせる。現代のモデルはCNNやViTエンコーダーとトランスフォーマーデコーダーを使用する。
← 戻る