GPT (Generative Pre-trained Transformer)
KV Cache
Оптимизация при инференсе, которая кэширует ключи (keys) и значения (values) предыдущих токенов, чтобы избежать пересчёта состояний внимания при каждой новой генерации токена.
← Назад