Optimisation et Efficacité Computationnelle
Inférence à Faible Rang (Low-Rank)
Approche qui approxime les grandes matrices de poids du modèle par des produits de matrices de plus faible rang, réduisant drastiquement le nombre de paramètres et les opérations de multiplication matricielle lors de l'inférence.
← Retour