Glossário IA
O dicionário completo da Inteligência Artificial
Pipeline de Dados Escalável
Arquitetura de fluxo de dados projetada para gerenciar automaticamente o aumento do volume de dados e da carga de trabalho através de recursos elásticos e processamento distribuído.
Change Data Capture (CDC)
Técnica de identificação e captura seletiva de modificações de dados em sistemas de origem para minimizar a largura de banda e otimizar a sincronização em tempo real.
Orquestração de Dados
Coordenação automatizada de fluxos de trabalho complexos de integração de dados, incluindo gerenciamento de dependências, execuções paralelas, monitoramento e recuperação de erros.
Camada de Virtualização de Dados
Camada de abstração que permite acessar e combinar dados heterogêneos em tempo real sem duplicação física, criando uma visão unificada e virtualizada de fontes distribuídas.
Carregamento Incremental
Estratégia de carregamento otimizada que processa apenas os dados novos ou modificados desde a última execução, reduzindo significativamente os tempos de processamento e o impacto nos sistemas de origem.
Estrutura de Qualidade de Dados
Conjunto estruturado de regras, métricas e processos que permitem validar, limpar e monitorar a qualidade dos dados ao longo do pipeline de integração.
Formato de Armazenamento Colunar
Formato de armazenamento orientado a colunas otimizado para consultas analíticas em grandes volumes, permitindo compressão eficiente e leituras seletivas apenas das colunas necessárias.
Estratégia de Particionamento
Técnica de divisão lógica de grandes conjuntos de dados baseada em critérios temporais, geográficos ou de negócio para acelerar consultas e otimizar o processamento paralelo.
Rastreamento de Linhagem de Dados
Sistema de rastreabilidade automática que documenta a origem, as transformações e o destino dos dados em todas as etapas do pipeline para auditabilidade e governança.
Repositório de Metadados
Centralização de informações descritivas sobre esquemas, formatos, fontes e transformações para facilitar a descoberta e a automação dos processos ETL/ELT.
Processamento Distribuído de Dados
Paradigma de computação distribuída em um cluster de nós para processar volumes massivos de dados em paralelo, garantindo escalabilidade horizontal e tolerância a falhas.
Pipeline de Mascaramento de Dados
Fluxo de transformação especializado na anonimização de dados sensíveis durante a integração, preservando a estrutura e a distribuição estatística, garantindo a conformidade com o RGPD.
Arquitetura ETL Híbrida
Combinação estratégica de processamentos batch e streaming para otimizar o desempenho de acordo com as características dos dados e os requisitos de negócio de frescor.
Camada de Governança de Dados
Conjunto de políticas, controles e mecanismos integrados nos pipelines ETL/ELT para garantir a conformidade regulatória, a segurança e a qualidade dos dados.
Pipeline de Autoajuste
Pipeline de integração auto-otimizável que utiliza machine learning para ajustar dinamicamente os recursos, partições e paralelismo em função dos padrões de carga.