Data Lakes - Glossário IA

📖

termos

Data Lake

Repositório de armazenamento centralizado projetado para conter grandes quantidades de dados brutos em seu formato nativo. Permite o armazenamento de dados estruturados, semiestruturados e não estruturados em escala de petabytes.

📖

termos

Data Swamp

Data Lake que perdeu sua governança e organização, tornando os dados difíceis de acessar e utilizar. Resulta da falta de gestão de metadados e documentação adequada.

📖

termos

Data Lakehouse

Arquitetura híbrida que combina as vantagens dos Data Lakes e data warehouses para oferecer gestão unificada de dados. Permite análise direta sobre dados armazenados em formato aberto e otimizado para desempenho.

📖

termos

Data Ingestion

Processo de coleta e transferência de dados de várias fontes para um sistema de armazenamento centralizado como um Data Lake. Pode ser realizado em tempo real, por lotes ou streaming conforme as necessidades de negócio.

📖

termos

Schema-on-Read

Abordagem onde a estrutura dos dados é aplicada no momento da leitura em vez da escrita. Oferece flexibilidade máxima para armazenar dados heterogêneos sem definir esquema previamente.

📖

termos

Schema-on-Write

Metodologia tradicional onde o esquema dos dados deve ser definido antes de sua escrita no sistema. Garante qualidade e consistência dos dados mas reduz a flexibilidade de armazenamento.

📖

termos

Data Catalog

Metadados organizados e indexados descrevendo os dados disponíveis em um Data Lake. Facilita a descoberta, compreensão e governança dos dados através de uma interface centralizada.

📖

termos

Data Governance

Conjunto de políticas, procedimentos e padrões definindo a gestão de dados dentro da organização. Garante qualidade, segurança, conformidade e uso apropriado dos dados do Data Lake.

📖

termos

Particionamento de Dados

Técnica de divisão de dados em segmentos menores baseada em critérios específicos como data ou categoria. Otimiza o desempenho das consultas limitando a leitura às partições relevantes.

📖

termos

Fragmentação de Dados

Particionamento horizontal de dados distribuídos em vários servidores para melhorar a escalabilidade e o desempenho. Cada fragmento contém um subconjunto único dos dados totais.

📖

termos

Replicação de Dados

Processo de cópia de dados de um local para outro para garantir alta disponibilidade e tolerância a falhas. Pode ser síncrona ou assíncrona dependendo dos requisitos de consistência.

📖

termos

Versionamento de Dados

Mecanismo que permite rastrear e gerenciar modificações de dados ao longo do tempo em um Data Lake. Facilita auditoria, recuperação após erros e análise de tendências temporais.

📖

termos

Linha de Dados

Rastreabilidade completa do ciclo de vida dos dados desde sua origem até seu destino final. Documenta transformações, movimentos e relações entre diferentes entidades de dados.

📖

termos

Malha de Dados

Arquitetura descentralizada de gerenciamento de dados que trata dados como produtos distribuídos. Elimina gargalos de equipes centrais promovendo autonomia dos domínios funcionais.

📖

termos

Delta Lake

Camada de armazenamento open-source que traz transações ACID para Data Lakes construídos em sistemas de arquivos distribuídos. Permite atualizações, exclusões e consultas temporais em dados parquet.

📖

termos

Apache Iceberg

Formato de tabela open-source para Data Lakes analíticos massivos, oferecendo desempenho de consulta ideal e evolução de esquema sem ruptura. Separa operações de planejamento das de execução.

📖

termos

Apache Hudi

Framework de streaming de dados que fornece capacidades de processamento em lote e em tempo real em Data Lakes. Permite atualizações e exclusões incrementais com garantias de consistência.

📖

termos

Data Virtualization

Abordagem de integração de dados que permite acessar e manipular dados sem movê-los fisicamente de suas fontes. Cria uma visão unificada e abstrata de dados distribuídos.

📖

termos

Data Fabric

Arquitetura unificada de gerenciamento de dados integrada e inteligente que facilita o acesso aos dados onde quer que residam. Combina integração, governança e orquestração de dados de forma transparente.

📖

termos

Zone Medallion

Arquitetura de Data Lake que organiza dados em três zonas: Bronze (brutos), Silver (limpos) e Gold (agregados). Estrutura progressivamente os dados para análise e tomada de decisão.

Glossário IA

Data Lake

Data Swamp

Data Lakehouse

Data Ingestion

Schema-on-Read

Schema-on-Write

Data Catalog

Data Governance

Particionamento de Dados

Fragmentação de Dados

Replicação de Dados

Versionamento de Dados

Linha de Dados

Malha de Dados

Delta Lake

Apache Iceberg

Apache Hudi

Data Virtualization

Data Fabric

Zone Medallion

Nenhum resultado encontrado