AI 词汇表
人工智能完整词典
分布式矩阵分解
一套算法技术集合,旨在将超大尺寸矩阵分解为更小矩阵的乘积,通过将计算和数据分布到机器集群上来克服单个节点的内存和计算能力限制。
分布式交替最小二乘法(ALS)
并行化的矩阵分解算法,在保持另一个矩阵因子固定的情况下交替求解其中一个矩阵因子的最小二乘问题,由于每行或每列计算的独立性,自然适应Spark MLlib等分布式环境。
分布式随机梯度下降(SGD)
随机梯度下降的并行变体,其中矩阵分解的参数更新在数据的多个分区上异步或同步执行,需要在分布式环境中使用一致性管理机制以确保正确收敛。
用于矩阵分解的MapReduce
一种编程范式,将矩阵分解算法分解为两个主要步骤:'Map'步骤用于在数据片段上进行本地计算,'Reduce'步骤用于聚合部分结果并更新矩阵因子,特别是在Hadoop实现中使用。
Spark MLlib ALS
Spark机器学习库中优化和分布式的交替最小二乘算法实现,专为大规模矩阵分解设计,利用RDD或DataFrame编程模型在处理迭代数据时实现最大效率。
矩阵分区(Matrix Partitioning)
将大规模矩阵切分为子块(按行、按列或按正方形块)并分布到集群节点上的策略,这一关键选择直接影响工作负载、节点间通信和矩阵分解算法的整体性能。
一致性模型(Consistency Model)
定义矩阵因子更新在集群节点间可见性的规则,在强一致性(BSP模型-批量同步并行)和弱一致性(异步模型)之间权衡:强一致性以延迟为代价保证收敛,弱一致性加速迭代但可能影响稳定性。
在线矩阵分解(Online Matrix Factorization)
适用于连续数据流的分布式方法,其中矩阵分解模型随着新观测数据的到达而增量更新,无需在整个历史数据上重新训练,通常使用分布式SGD变体实现。
参数化分布式矩阵分解
一种先进方法,其中矩阵因子不是直接学习,而是通过共享的分布式参数函数(例如神经网络)生成,从而减少节点间需要通信的数据量并提高泛化能力。
滞后节点(慢节点)
分布式系统中的现象,某些机器执行计算任务的速度远慢于其他机器,延迟了整个同步分解过程;设计了如推测执行或容忍延迟的算法来减轻其影响。
分布式非负矩阵分解(NMF)
非负矩阵分解的分布式扩展,其中对因子的非负约束通过适用于并行执行的更新规则(乘法或投影)来实施,常用于大规模文本聚类。
迭代算法中的检查点
在分布式算法迭代过程中定期将矩阵因子状态备份到可靠存储(例如HDFS)的技术,允许在节点故障时从中间点恢复计算,避免从头重新开始。
分布式张量分解
将矩阵分解推广到分布式环境中的张量(多维数组),用于建模具有超过两个模式的数据(例如用户、项目、时间),并需要特定的并行算法如分布式PARAFAC或Tucker分解。
分布式损失函数
矩阵分解重构误差的计算,以分区方式执行,每个节点在其数据子集上评估损失,然后通过全局归约步骤计算总损失,以集中或分散方式指导模型更新。
分布式正则化
对矩阵因子应用惩罚(如L2范数)以防止过拟合,其中正则化项在每个节点上本地计算,并在参数全局更新时聚合,确保在整个集群范围内的一致正则化。
Spark GraphX用于分解
使用Spark的图处理API GraphX将矩阵建模为二分图(用户-物品)并执行基于图中节点间消息传递的分解算法,提供基于DataFrame实现的替代方案。