🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

MapReduce

用于在集群上处理大型数据集的并行编程模型,将处理分为两个主要阶段:Map用于过滤和转换,Reduce用于聚合结果。

📖
个术语

Lambda Architecture

数据处理架构,结合了批处理路径进行完整分析和实时路径获取实时结果,通过统一服务层融合两种视图。

📖
个术语

Kappa Architecture

Lambda架构的简化版本,仅使用流处理管道,数据实时处理,历史查询通过重放事件来满足。

📖
个术语

Batch Processing

数据收集并在预定间隔批量处理的模式,优化吞吐量而非延迟,是传统ETL分析的典型方式。

📖
个术语

Stream Processing

在数据生成时持续处理移动中的数据,实现实时分析,捕获与处理之间的延迟最小。

📖
个术语

Distributed File System

在多个服务器上存储数据但对用户显示为单一系统的文件系统,通过复制和容错确保可靠性。

📖
个术语

HDFS

Hadoop分布式文件系统,设计用于在标准硬件上存储PB级数据,通过块复制实现高容错性。

📖
个术语

YARN

Yet Another Resource Negotiator,Hadoop资源管理器,将数据处理与资源管理分离,允许在同一集群上运行多个框架。

📖
个术语

RDD

弹性分布式数据集,Spark的基本数据结构,表示一个不可变、分区的对象集合,可以并行计算并具有自动容错能力。

📖
个术语

Data Locality

分布式计算原则,任务在包含所需数据的节点上执行,最小化网络传输并显著提高性能。

📖
个术语

Speculative Execution

容错机制,在其他节点上启动慢任务的副本,使用第一个完成的结果来减少故障节点或过载节点的影响。

📖
个术语

DAG

有向无环图,Spark工作流的表示形式,其中转换被组织成无环有向图,优化步骤的并行执行。

📖
个术语

Fault Tolerance

分布式系统在组件故障时仍能正常运行的能力,通常通过冗余、复制和自动恢复机制实现。

📖
个术语

Consistency Model

定义分布式系统中数据一致性保证的契约,根据应用需求从强一致性到最终一致性不等。

📖
个术语

Combiner

MapReduce优化函数,在每个映射器上本地执行,以减少shuffle期间传输的数据量,在归约阶段之前应用预聚合。

🔍

未找到结果