Data Lakes - Glosario IA

📖

términos

Data Lake

Repositorio de almacenamiento centralizado diseñado para contener grandes cantidades de datos brutos en su formato nativo. Permite el almacenamiento de datos estructurados, semiestructurados y no estructurados a escala de petabytes.

📖

términos

Data Swamp

Data Lake que ha perdido su gobernanza y organización, haciendo que los datos sean difíciles de acceder y utilizar. Resulta de una falta de gestión de metadatos y documentación adecuada.

📖

términos

Data Lakehouse

Arquitectura híbrida que combina las ventajas de los Data Lakes y los data warehouses para ofrecer una gestión unificada de datos. Permite el análisis directo sobre datos almacenados en un formato abierto y optimizado para el rendimiento.

📖

términos

Data Ingestion

Proceso de recolección y transferencia de datos desde diversas fuentes hacia un sistema de almacenamiento centralizado como un Data Lake. Puede realizarse en tiempo real, por lotes o por streaming según las necesidades del negocio.

📖

términos

Schema-on-Read

Enfoque donde la estructura de los datos se aplica en el momento de la lectura en lugar de en la escritura. Ofrece máxima flexibilidad para almacenar datos heterogéneos sin definir un esquema por adelantado.

📖

términos

Schema-on-Write

Metodología tradicional donde el esquema de los datos debe definirse antes de su escritura en el sistema. Garantiza la calidad y consistencia de los datos pero reduce la flexibilidad de almacenamiento.

📖

términos

Data Catalog

Metadatos organizados e indexados que describen los datos disponibles en un Data Lake. Facilita el descubrimiento, la comprensión y la gobernanza de los datos a través de una interfaz centralizada.

📖

términos

Data Governance

Conjunto de políticas, procedimientos y estándares que definen la gestión de datos dentro de la organización. Asegura la calidad, seguridad, conformidad y uso apropiado de los datos del Data Lake.

📖

términos

Partición de Datos

Técnica de división de datos en segmentos más pequeños basados en criterios específicos como fecha o categoría. Optimiza el rendimiento de las consultas limitando la lectura a las particiones relevantes.

📖

términos

Fragmentación de Datos

Particionamiento horizontal de datos distribuidos en múltiples servidores para mejorar la escalabilidad y el rendimiento. Cada fragmento contiene un subconjunto único de los datos totales.

📖

términos

Replicación de Datos

Proceso de copia de datos de una ubicación a otra para garantizar alta disponibilidad y tolerancia a fallos. Puede ser síncrona o asíncrona según los requisitos de consistencia.

📖

términos

Versionado de Datos

Mecanismo que permite rastrear y gestionar las modificaciones de los datos a lo largo del tiempo en un Data Lake. Facilita la auditoría, la recuperación ante errores y el análisis de tendencias temporales.

📖

términos

Linaje de Datos

Trazabilidad completa del ciclo de vida de los datos desde su origen hasta su destino final. Documenta las transformaciones, movimientos y relaciones entre las diferentes entidades de datos.

📖

términos

Malla de Datos

Arquitectura descentralizada de gestión de datos que trata los datos como productos distribuidos. Elimina los cuellos de botella de los equipos centrales fomentando la autonomía de los dominios funcionales.

📖

términos

Delta Lake

Capa de almacenamiento de código abierto que aporta transacciones ACID a los Data Lakes construidos sobre sistemas de archivos distribuidos. Permite actualizaciones, eliminaciones y consultas temporales sobre datos parquet.

📖

términos

Apache Iceberg

Formato de tabla de código abierto para Data Lakes grandes y analíticos, que ofrece rendimiento óptimo de consultas y evolución de esquema sin rupturas. Separa las operaciones de planificación de las de ejecución.

📖

términos

Apache Hudi

Framework de streaming de datos que proporciona capacidades de procesamiento por lotes y en tiempo real en Data Lakes. Permite actualizaciones y eliminaciones incrementales con garantías de consistencia.

📖

términos

Data Virtualization

Enfoque de integración de datos que permite acceder y manipular datos sin moverlos físicamente de sus fuentes. Crea una vista unificada y abstracta de datos distribuidos.

📖

términos

Data Fabric

Arquitectura unificada de gestión de datos integrada e inteligente que facilita el acceso a los datos dondequiera que residan. Combina integración, gobernanza y orquestación de datos de manera transparente.

📖

términos

Zone Medallion

Arquitectura de Data Lake que organiza los datos en tres zonas: Bronze (en bruto), Silver (limpiados) y Gold (agregados). Estructura progresivamente los datos para el análisis y la toma de decisiones.

Glosario IA

Data Lake

Data Swamp

Data Lakehouse

Data Ingestion

Schema-on-Read

Schema-on-Write

Data Catalog

Data Governance

Partición de Datos

Fragmentación de Datos

Replicación de Datos

Versionado de Datos

Linaje de Datos

Malla de Datos

Delta Lake

Apache Iceberg

Apache Hudi

Data Virtualization

Data Fabric

Zone Medallion

No se encontraron resultados