Factorisation de Matrices Distribuée

📖

शब्द

Ensemble de techniques algorithmiques visant à décomposer une matrice de très grande taille en produits de matrices plus petites, en répartissant les calculs et les données sur un cluster de machines pour surmonter les limitations de mémoire et de puissance de calcul d'un seul nœud.

📖

शब्द

Alternating Least Squares (ALS) Distribué

Algorithme de factorisation de matrices parallélisé qui résout le problème de moindres carrés alternativement pour l'un des facteurs de matrice tout en gardant l'autre fixe, s'adaptant naturellement aux environnements distribués comme Spark MLlib grâce à l'indépendance des calculs sur chaque ligne ou colonne.

📖

शब्द

Stochastic Gradient Descent (SGD) Distribué

Variante parallèle de la descente de gradient stochastique où la mise à jour des paramètres de la factorisation est effectuée de manière asynchrone ou synchronisée sur plusieurs partitions de données, nécessitant des mécanismes de gestion de la cohérence pour converger correctement dans un contexte distribué.

📖

शब्द

MapReduce pour la Factorisation

Paradigme de programmation qui décompose les algorithmes de factorisation de matrices en deux étapes principales : une étape 'Map' pour les calculs locaux sur les fragments de données et une étape 'Reduce' pour agréger les résultats partiels et mettre à jour les facteurs de la matrice, utilisé notamment dans les implémentations sur Hadoop.

📖

शब्द

Spark MLlib ALS

Implémentation optimisée et distribuée de l'algorithme Alternating Least Squards au sein de la bibliothèque Machine Learning de Spark, conçue pour la factorisation de matrices de grande envergure en exploitant le modèle de programmation RDD ou DataFrame pour une efficacité maximale sur les données itératives.

📖

शब्द

Partitionnement de Matrice (Matrix Partitioning)

Stratégie de découpage d'une matrice massive en sous-blocs (par lignes, par colonnes ou par blocs carrés) distribués sur les nœuds d'un cluster, un choix crucial qui impacte directement la charge de travail, la communication inter-nœuds et la performance globale des algorithmes de factorisation.

📖

शब्द

Modèle de Consistance (Consistency Model)

Règles définissant la visibilité des mises à jour des facteurs de matrice à travers les nœuds du cluster, oscillant entre une forte cohérence (modèle BSP - Bulk Synchronous Parallel) qui garantit la convergence au prix de la latence, et une faible cohérence (modèle asynchrone) qui accélère les itérations mais peut compromettre la stabilité.

📖

शब्द

Factorisation de Matrice en Ligne (Online Matrix Factorization)

Approche distribuée adaptée aux flux de données continus, où le modèle de factorisation est mis à jour incrémentalement à l'arrivée de nouvelles observations sans nécessiter une réentraînement complet sur l'historique, souvent implémentée avec des variantes distribuées de SGD.

📖

शब्द

Parametric Distributed Matrix Factorization

Méthode avancée où les facteurs de la matrice ne sont pas appris directement mais sont générés par des fonctions paramétriques (ex: réseaux de neurones) partagées et distribuées, réduisant ainsi la quantité de données à communiquer entre les nœuds et améliorant la capacité de généralisation.

📖

शब्द

Stragglers (Nœuds Lent)

Phénomène dans les systèmes distribués où certaines machines exécutent leurs tâches de calcul beaucoup plus lentement que les autres, retardant l'ensemble du processus de factorisation synchrone ; des techniques comme la spéculation ou les algorithmes tolérants aux délais sont conçues pour atténuer leur impact.

📖

शब्द

Non-Negative Matrix Factorization (NMF) Distribuée

Extension distribuée de la factorisation en matrices non-négatives, où les contraintes de non-négativité sur les facteurs sont imposées à travers des règles de mises à jour (multiplicatives ou de projection) adaptées pour un exécution parallèle, souvent utilisée pour le clustering de textes à grande échelle.

📖

शब्द

Checkpointing dans les Algorithmes Itératifs

Technique de sauvegarde périodique de l'état des facteurs de matrice sur un stockage fiable (ex: HDFS) au cours des itérations d'un algorithme distribué, permettant de reprendre le calcul depuis un point intermédiaire en cas de défaillance d'un nœud et d'éviter de tout relancer depuis le début.

📖

शब्द

Tensor Factorisation Distribuée

Généralisation de la factorisation de matrices aux tenseurs (tableaux multi-dimensionnels) dans un contexte distribué, utilisée pour modéliser des données avec plus de deux modes (ex: utilisateurs, items, temps) et requérant des algorithmes parallèles spécifiques comme le PARAFAC ou le Tucker distribué.

📖

शब्द

Fonction de Perte Distribuée

Calcul de l'erreur de reconstruction de la matrice factorisée, effectué de manière partitionnée où chaque nœud évalue la perte sur son sous-ensemble de données avant qu'une étape de réduction globale ne calcule la perte totale pour guider les mises à jour du modèle de manière centralisée ou décentralisée.

📖

शब्द

Régularisation Distribuée

Application de pénalités (comme la norme L2) sur les facteurs de la matrice pour prévenir le surapprentissage, où le terme de régularisation est calculé localement sur chaque nœud et agrégé lors de la mise à jour globale des paramètres, assurant une régularisation cohérente à l'échelle du cluster.

📖

शब्द

Spark GraphX pour la Factorisation

Utilisation de l'API de traitement de graphes de Spark, GraphX, pour modéliser la matrice comme un graphe biparti (utilisateurs-items) et exécuter des algorithmes de factorisation basés sur la propagation de messages (message passing) entre les nœuds du graphe, offrant une alternative aux implémentations basées sur les DataFrames.

एआई शब्दावली