Glosario IA
El diccionario completo de la Inteligencia Artificial
Data Lake
Repositorio de almacenamiento centralizado diseñado para contener grandes cantidades de datos brutos en su formato nativo. Permite el almacenamiento de datos estructurados, semiestructurados y no estructurados a escala de petabytes.
Data Swamp
Data Lake que ha perdido su gobernanza y organización, haciendo que los datos sean difíciles de acceder y utilizar. Resulta de una falta de gestión de metadatos y documentación adecuada.
Data Lakehouse
Arquitectura híbrida que combina las ventajas de los Data Lakes y los data warehouses para ofrecer una gestión unificada de datos. Permite el análisis directo sobre datos almacenados en un formato abierto y optimizado para el rendimiento.
Data Ingestion
Proceso de recolección y transferencia de datos desde diversas fuentes hacia un sistema de almacenamiento centralizado como un Data Lake. Puede realizarse en tiempo real, por lotes o por streaming según las necesidades del negocio.
Schema-on-Read
Enfoque donde la estructura de los datos se aplica en el momento de la lectura en lugar de en la escritura. Ofrece máxima flexibilidad para almacenar datos heterogéneos sin definir un esquema por adelantado.
Schema-on-Write
Metodología tradicional donde el esquema de los datos debe definirse antes de su escritura en el sistema. Garantiza la calidad y consistencia de los datos pero reduce la flexibilidad de almacenamiento.
Data Catalog
Metadatos organizados e indexados que describen los datos disponibles en un Data Lake. Facilita el descubrimiento, la comprensión y la gobernanza de los datos a través de una interfaz centralizada.
Data Governance
Conjunto de políticas, procedimientos y estándares que definen la gestión de datos dentro de la organización. Asegura la calidad, seguridad, conformidad y uso apropiado de los datos del Data Lake.
Partición de Datos
Técnica de división de datos en segmentos más pequeños basados en criterios específicos como fecha o categoría. Optimiza el rendimiento de las consultas limitando la lectura a las particiones relevantes.
Fragmentación de Datos
Particionamiento horizontal de datos distribuidos en múltiples servidores para mejorar la escalabilidad y el rendimiento. Cada fragmento contiene un subconjunto único de los datos totales.
Replicación de Datos
Proceso de copia de datos de una ubicación a otra para garantizar alta disponibilidad y tolerancia a fallos. Puede ser síncrona o asíncrona según los requisitos de consistencia.
Versionado de Datos
Mecanismo que permite rastrear y gestionar las modificaciones de los datos a lo largo del tiempo en un Data Lake. Facilita la auditoría, la recuperación ante errores y el análisis de tendencias temporales.
Linaje de Datos
Trazabilidad completa del ciclo de vida de los datos desde su origen hasta su destino final. Documenta las transformaciones, movimientos y relaciones entre las diferentes entidades de datos.
Malla de Datos
Arquitectura descentralizada de gestión de datos que trata los datos como productos distribuidos. Elimina los cuellos de botella de los equipos centrales fomentando la autonomía de los dominios funcionales.
Delta Lake
Capa de almacenamiento de código abierto que aporta transacciones ACID a los Data Lakes construidos sobre sistemas de archivos distribuidos. Permite actualizaciones, eliminaciones y consultas temporales sobre datos parquet.
Apache Iceberg
Formato de tabla de código abierto para Data Lakes grandes y analíticos, que ofrece rendimiento óptimo de consultas y evolución de esquema sin rupturas. Separa las operaciones de planificación de las de ejecución.
Apache Hudi
Framework de streaming de datos que proporciona capacidades de procesamiento por lotes y en tiempo real en Data Lakes. Permite actualizaciones y eliminaciones incrementales con garantías de consistencia.
Data Virtualization
Enfoque de integración de datos que permite acceder y manipular datos sin moverlos físicamente de sus fuentes. Crea una vista unificada y abstracta de datos distribuidos.
Data Fabric
Arquitectura unificada de gestión de datos integrada e inteligente que facilita el acceso a los datos dondequiera que residan. Combina integración, gobernanza y orquestación de datos de manera transparente.
Zone Medallion
Arquitectura de Data Lake que organiza los datos en tres zonas: Bronze (en bruto), Silver (limpiados) y Gold (agregados). Estructura progresivamente los datos para el análisis y la toma de decisiones.