Glosario IA
El diccionario completo de la Inteligencia Artificial
Apache Airflow
Plataforma de orquestación de flujos de trabajo de código abierto desarrollada por Airbnb, que permite definir, programar y monitorear pipelines de datos complejos a través de DAGs (Grafos Acíclicos Dirigidos).
Apache Oozie
Sistema de flujo de trabajo especializado para el ecosistema Hadoop, que permite la orquestación de trabajos MapReduce, Pig, Hive y HDFS con gestión de dependencias temporales y condicionales.
Luigi
Framework Python de código abierto desarrollado por Spotify para construir pipelines de datos complejos con gestión de dependencias, visualización de tareas e integración nativa con Hadoop.
Apache NiFi
Plataforma de flujo de datos automatizada y segura que permite el transporte, la transformación y el enrutamiento de datos entre sistemas con una interfaz visual de diseño de pipelines en tiempo real.
Kubeflow
Toolkit de código abierto para desplegar y gestionar flujos de trabajo de aprendizaje automático en Kubernetes, orquestando pipelines de ML complejos con versionado y seguimiento de experimentos.
Prefect
Moderno motor de orquestación de flujos de trabajo Python que ofrece gestión dinámica de flujos, observabilidad nativa y resiliencia con soporte de ejecución híbrida en la nube/on-premise.
Dagster
Plataforma de orquestación de datos centrada en los activos, que proporciona desarrollo de pipelines declarativos, pruebas unitarias y gestión del ciclo de vida de los datos con una arquitectura modular.
Azkaban
Sistema de flujo de trabajo por lotes de código abierto desarrollado por LinkedIn, especializado en la programación de trabajos Hadoop con una interfaz web sencilla y gestión de dependencias temporales.
Apache Storm
Sistema distribuido de procesamiento de flujos en tiempo real, capaz de orquestar topologías de procesamiento ilimitadas (unbounded) con latencia de milisegundos y garantía de procesamiento exactly-once (exactamente una vez).
Apache Beam
Modelo de programación unificado para pipelines batch y streaming, que permite la escritura de flujos de trabajo (workflows) portables en múltiples ejecutores (runners) (Apache Flink, Spark, Dataflow).