Glosario IA
El diccionario completo de la Inteligencia Artificial
Familia de Columnas
Agrupación lógica de columnas relacionadas en bases de datos columnar, permitiendo una organización jerárquica de datos para un acceso más eficiente.
Grupo de Filas
Unidad de procesamiento en formatos columnar que contiene un conjunto de filas almacenadas verticalmente, optimizando operaciones de E/S y compresión.
Fragmento de Columna
Fragmento físico de datos que contiene los valores de una columna específica, comprimido y almacenado independientemente para permitir acceso selectivo a los datos.
Formato Parquet
Formato de almacenamiento columnar de código abierto optimizado para cargas de trabajo analíticas, utilizando codificación eficiente y técnicas de compresión avanzadas.
Formato ORC
Formato columnar optimizado para Apache Hive, proporcionando alta compresión y rendimiento rápido de consultas con tipado de datos estricto.
Ejecución Vectorizada
Técnica de procesamiento donde las operaciones se aplican a lotes de datos en paralelo, reduciendo sobrecarga y mejorando el rendimiento de consultas columnar.
Pushdown de Predicados
Optimización que empuja los filtros de consultas hacia la fuente de datos, reduciendo la cantidad de datos leídos y procesados en sistemas columnar.
Poda de Columnas
Técnica que elimina la lectura de columnas no requeridas en una consulta, explotando la organización columnar para minimizar accesos a disco.
Codificación de Diccionario
Método de compresión que reemplaza valores repetidos por identificadores cortos, particularmente eficaz para datos categóricos en sistemas columnar.
Mapas de Zonas
Metadatos que indican los valores mínimos y máximos en segmentos de datos, permitiendo la eliminación rápida de bloques irrelevantes durante las consultas.
Codificación Delta
Técnica de compresión que almacena las diferencias entre valores sucesivos en lugar de los valores absolutos, óptima para datos ordenados y temporales.
Codificación RLE
Codificación de Longitud de Ejecución que comprime secuencias de valores idénticos almacenando el valor y el número de ocurrencias consecutivas.
Filtros de Bloom
Estructuras de datos probabilísticas que permiten determinar rápidamente la ausencia de un valor en un conjunto, optimizando búsquedas en sistemas columnar.
Índice de Salto
Metadatos que permiten saltar directamente a los bloques de datos relevantes durante la lectura secuencial de columnas, acelerando los escaneos de datos.
Segmentación Vertical
Proceso de división física de datos en particiones basadas en columnas, permitiendo una distribución y paralelismo eficientes en clusters columnar.
Pushdown de Agregación
Optimización que desplaza los cálculos de agregación hacia la capa de almacenamiento, reduciendo el volumen de datos transferidos en arquitecturas columnar.