効率的なトランスフォーマー

📖

用語

計算量を削減しながら長距離依存関係を捉えるために、予測的スパースアテンションパターンを使用するバリアント。アーキテクチャは処理を最適化するためにアテンションをサブセットに分解します。

📖

用語

古い隠れメモリをより密なベクトルに圧縮して長期履歴を保持するTransformer-XLの拡張。この圧縮により、広範なコンテキスト情報の効率的な保存が可能です。

📖

用語

深さが固定ではなく適応停止メカニズムによって動的に決定される適応型アーキテクチャ。ユニバーサルTransformerは、適応型アテンションで共有重みの変換を反復的に適用します。

📖

用語

事前に定義された順序なしでデータセットを処理するための、アテンションベースの置換不変アーキテクチャ。セットTransformerは、誘導アテンションボックとプーリングメカニズムを使用してセット操作を行います。

📖

用語

アテンション重みがトークンのコンテンツに依存せず、位置埋め込みから直接学習されるか、小さなネットワークによって生成されるバリアント。このアプローチにより、QK類似度計算の必要がなくなります。

📖

用語

シーケンスとメモリの線形複雑さを達成するために、カーネル化されたアテンション分解を使用するアーキテクチャ。リニアTransformerは、ソフトマックスを正カーネル関数に置き換えて連想的再順序付けを可能にします。

📖

用語

各位置の周りの局所的な近傍に限定されたアテンションメカニズムで、考慮すべきトークンペアの数を劇的に削減します。このアプローチは、強い局所構造を持つデータに特に効果的です。

📖

用語

複雑さを増やすことなく長距離依存関係を捉えるために、拡張パターンを使用するスライディングウィンドウアテンションの拡張。パターンの穴により、受容野の指数関数的拡大が可能になります。

📖

用語

多次元アテンションを各軸に順次適用される一次元アテンションに分解すること。アキシャルアテンションはO(n²)からO(n*d)に複雑さを低減させます。ここでdは次元の数です。

AI用語集