GPT (Generative Pre-trained Transformer)
KVキャッシュ
推論時の最適化手法。新しいトークンを生成するたびに注意状態を再計算するのを避けるため、過去のトークンのキー(keys)とバリュー(values)をキャッシュする。
← 戻る推論時の最適化手法。新しいトークンを生成するたびに注意状態を再計算するのを避けるため、過去のトークンのキー(keys)とバリュー(values)をキャッシュする。
← 戻る