Arquitectura Transformer
Feed-Forward por Posición
Red neuronal aplicada de manera idéntica e independiente a cada posición de la secuencia. Transforma las representaciones después del mecanismo de atención introduciendo no linealidad.
← Volver