人工知能の完全辞典
Sinkhorn-Knoppアルゴリズムを用いて、準線形の計算量で二重確率的なアテンション行列を生成し、数値的安定性を向上させるアーキテクチャ。
アテンション計算の前にプーリング操作を通じてキーと値を圧縮し、アテンション行列のサイズを削減することで計算量を低減させる手法。