Glossário IA
O dicionário completo da Inteligência Artificial
Data Lake
Repositório de armazenamento centralizado projetado para conter grandes quantidades de dados brutos em seu formato nativo. Permite o armazenamento de dados estruturados, semiestruturados e não estruturados em escala de petabytes.
Data Swamp
Data Lake que perdeu sua governança e organização, tornando os dados difíceis de acessar e utilizar. Resulta da falta de gestão de metadados e documentação adequada.
Data Lakehouse
Arquitetura híbrida que combina as vantagens dos Data Lakes e data warehouses para oferecer gestão unificada de dados. Permite análise direta sobre dados armazenados em formato aberto e otimizado para desempenho.
Data Ingestion
Processo de coleta e transferência de dados de várias fontes para um sistema de armazenamento centralizado como um Data Lake. Pode ser realizado em tempo real, por lotes ou streaming conforme as necessidades de negócio.
Schema-on-Read
Abordagem onde a estrutura dos dados é aplicada no momento da leitura em vez da escrita. Oferece flexibilidade máxima para armazenar dados heterogêneos sem definir esquema previamente.
Schema-on-Write
Metodologia tradicional onde o esquema dos dados deve ser definido antes de sua escrita no sistema. Garante qualidade e consistência dos dados mas reduz a flexibilidade de armazenamento.
Data Catalog
Metadados organizados e indexados descrevendo os dados disponíveis em um Data Lake. Facilita a descoberta, compreensão e governança dos dados através de uma interface centralizada.
Data Governance
Conjunto de políticas, procedimentos e padrões definindo a gestão de dados dentro da organização. Garante qualidade, segurança, conformidade e uso apropriado dos dados do Data Lake.
Particionamento de Dados
Técnica de divisão de dados em segmentos menores baseada em critérios específicos como data ou categoria. Otimiza o desempenho das consultas limitando a leitura às partições relevantes.
Fragmentação de Dados
Particionamento horizontal de dados distribuídos em vários servidores para melhorar a escalabilidade e o desempenho. Cada fragmento contém um subconjunto único dos dados totais.
Replicação de Dados
Processo de cópia de dados de um local para outro para garantir alta disponibilidade e tolerância a falhas. Pode ser síncrona ou assíncrona dependendo dos requisitos de consistência.
Versionamento de Dados
Mecanismo que permite rastrear e gerenciar modificações de dados ao longo do tempo em um Data Lake. Facilita auditoria, recuperação após erros e análise de tendências temporais.
Linha de Dados
Rastreabilidade completa do ciclo de vida dos dados desde sua origem até seu destino final. Documenta transformações, movimentos e relações entre diferentes entidades de dados.
Malha de Dados
Arquitetura descentralizada de gerenciamento de dados que trata dados como produtos distribuídos. Elimina gargalos de equipes centrais promovendo autonomia dos domínios funcionais.
Delta Lake
Camada de armazenamento open-source que traz transações ACID para Data Lakes construídos em sistemas de arquivos distribuídos. Permite atualizações, exclusões e consultas temporais em dados parquet.
Apache Iceberg
Formato de tabela open-source para Data Lakes analíticos massivos, oferecendo desempenho de consulta ideal e evolução de esquema sem ruptura. Separa operações de planejamento das de execução.
Apache Hudi
Framework de streaming de dados que fornece capacidades de processamento em lote e em tempo real em Data Lakes. Permite atualizações e exclusões incrementais com garantias de consistência.
Data Virtualization
Abordagem de integração de dados que permite acessar e manipular dados sem movê-los fisicamente de suas fontes. Cria uma visão unificada e abstrata de dados distribuídos.
Data Fabric
Arquitetura unificada de gerenciamento de dados integrada e inteligente que facilita o acesso aos dados onde quer que residam. Combina integração, governança e orquestração de dados de forma transparente.
Zone Medallion
Arquitetura de Data Lake que organiza dados em três zonas: Bronze (brutos), Silver (limpos) e Gold (agregados). Estrutura progressivamente os dados para análise e tomada de decisão.