Transformers Multimodais
Pix2Struct
Modelo Transformer pré-treinado na tarefa de análise de capturas de tela, excelente na compreensão de interfaces de usuário, diagramas e documentos visualmente estruturados.
← Voltar