低リソースモデル
構造化プルーニング
個々の重みではなく、完全で一貫したコンポーネント(アテンションヘッド、ニューロン、層)を削除するモデルプルーニング技術で、ハードウェアアクセラレータと互換性のあるアーキテクチャを維持しながら計算量を削減する。
← 戻る個々の重みではなく、完全で一貫したコンポーネント(アテンションヘッド、ニューロン、層)を削除するモデルプルーニング技術で、ハードウェアアクセラレータと互換性のあるアーキテクチャを維持しながら計算量を削減する。
← 戻る