Glosario IA
El diccionario completo de la Inteligencia Artificial
AutoML Integrado
Subdominio del AutoML especializado en la generación automática de modelos optimizados para las restricciones específicas de los dispositivos integrados, incluyendo la memoria limitada, la baja capacidad de cómputo y las restricciones energéticas.
Cuantificación de modelo
Técnica de optimización que reduce la precisión numérica de los pesos y activaciones de una red neuronal (típicamente de 32 bits a 8 bits o menos) para disminuir el tamaño del modelo y acelerar la inferencia en hardware restringido.
Poda neuronal
Proceso de eliminación selectiva de pesos o neuronas redundantes en una red neuronal para reducir su complejidad computacional y su tamaño de memoria preservando su precisión.
Destilación de conocimiento
Método de transferencia de aprendizaje donde un modelo maestro grande entrena un modelo estudiante más compacto, permitiendo conservar el rendimiento del modelo grande en una arquitectura adaptada a dispositivos Edge.
Optimización de la inferencia
Conjunto de técnicas que buscan reducir el tiempo y los recursos necesarios para la ejecución de un modelo entrenado, incluyendo la fusión de operaciones, la asignación eficiente de memoria y la explotación del paralelismo del hardware.
NAS para Edge
Búsqueda de arquitectura neuronal restringida que optimiza automáticamente las estructuras de redes considerando específicamente las limitaciones de hardware de los dispositivos Edge como la latencia objetivo y el consumo energético.
Compilador de modelo
Herramienta que transforma los grafos de cálculo de IA en código máquina optimizado para arquitecturas objetivo específicas, integrando optimizaciones como la cuantificación y la fusión de operaciones.
TensorRT
SDK de optimización y runtime de NVIDIA para el despliegue de modelos de IA en producción, utilizando la cuantificación, la fusión de capas y la optimización del kernel para maximizar el rendimiento en GPUs NVIDIA.
TinyML
Campo del machine learning centrado en la ejecución de modelos de IA en microcontroladores y dispositivos de consumo ultrabajo, típicamente con menos de 1MB de memoria y operando a menos de 1mW.
Edge TPU
Acelerador de hardware ASIC desarrollado por Google específicamente para la inferencia de IA en el borde, optimizado para ejecutar modelos TensorFlow Lite cuantificados con alta eficiencia energética.
Optimización de la memoria
Técnicas de reducción de la huella de memoria de los modelos que incluyen el intercambio de pesos, compresión y asignación dinámica para adaptarse a las restricciones de los dispositivos embebidos.
Latencia de inferencia
Tiempo transcurrido entre la entrada de un dato en un modelo y la obtención de su predicción, parámetro crítico en las aplicaciones Edge en tiempo real donde los valores típicos objetivo son inferiores a 10ms.
Modelo ligero
Arquitectura de red neuronal diseñada específicamente para minimizar los parámetros y las operaciones computacionales, como MobileNet o EfficientNet, optimizada para despliegues en móviles y Edge.
Despliegue distribuido
Estrategia de distribución de las cargas de trabajo de IA entre múltiples dispositivos Edge para optimizar los recursos globales y mejorar la escalabilidad de las aplicaciones de IA distribuidas.
Optimización energética
Proceso de minimización del consumo eléctrico de los modelos de IA en dispositivos Edge, crucial para las aplicaciones alimentadas por batería y los despliegues a gran escala.
Edge AI
Paradigma de procesamiento de la inteligencia artificial directamente en los dispositivos de borde, eliminando la necesidad de comunicación con la nube para las tareas de inferencia críticas.
Microcontrolador IA
Sistema en chip ultra-bajo consumo que integra aceleradores de hardware dedicados a la inferencia de IA, permitiendo la ejecución de modelos TinyML con un consumo de pocos microwatts.
Optimización aware hardware
Enfoque de AutoML que integra las características específicas del hardware objetivo en el proceso de diseño automático de modelos, garantizando una compatibilidad y un rendimiento óptimos.
Fusión de operaciones
Técnica de compilación que combina múltiples capas u operaciones adyacentes en una sola operación kernel, reduciendo la sobrecarga de memoria y mejorando la eficiencia computacional en Edge.