Distributed SGD
Quantized SGD
Approche réduisant la précision numérique des gradients avant transmission, utilisant typiquement 1-8 bits par paramètre pour minimiser le trafic réseau.
← GeriApproche réduisant la précision numérique des gradients avant transmission, utilisant typiquement 1-8 bits par paramètre pour minimiser le trafic réseau.
← Geri