Data Lakes - Глоссарий ИИ

📖

термины

Data Lake

Централизованное хранилище данных, предназначенное для хранения больших объемов сырых данных в их исходном формате. Позволяет хранить структурированные, полуструктурированные и неструктурированные данные в масштабе петабайт.

📖

термины

Data Swamp

Data Lake, который потерял управление и организацию, что делает данные труднодоступными и неудобными для использования. Является результатом отсутствия управления метаданными и надлежащей документации.

📖

термины

Data Lakehouse

Гибридная архитектура, сочетающая преимущества Data Lakes и хранилищ данных для обеспечения унифицированного управления данными. Позволяет проводить анализ непосредственно на данных, хранящихся в открытом формате, оптимизированном для производительности.

📖

термины

Data Ingestion

Процесс сбора и передачи данных из различных источников в централизованную систему хранения, такую как Data Lake. Может выполняться в реальном времени, пакетно или потоково в зависимости от бизнес-потребностей.

📖

термины

Schema-on-Read

Подход, при котором структура данных применяется в момент чтения, а не записи. Обеспечивает максимальную гибкость для хранения разнородных данных без предварительного определения схемы.

📖

термины

Schema-on-Write

Традиционная методология, при которой схема данных должна быть определена до их записи в систему. Гарантирует качество и согласованность данных, но снижает гибкость хранения.

📖

термины

Data Catalog

Организованные и индексированные метаданные, описывающие доступные данные в Data Lake. Облегчает обнаружение, понимание и управление данными через централизованный интерфейс.

📖

термины

Data Governance

Совокупность политик, процедур и стандартов, определяющих управление данными в организации. Обеспечивает качество, безопасность, соответствие требованиям и надлежащее использование данных Data Lake.

📖

термины

Разделение данных

Техника разделения данных на более мелкие сегменты на основе определенных критериев, таких как дата или категория. Она оптимизирует производительность запросов, ограничивая чтение соответствующими разделами.

📖

термины

Шардинг данных

Горизонтальное разделение распределенных данных на нескольких серверах для улучшения масштабируемости и производительности. Каждый шард содержит уникальное подмножество общих данных.

📖

термины

Репликация данных

Процесс копирования данных из одного местоположения в другое для обеспечения высокой доступности и отказоустойчивости. Может быть синхронной или асинхронной в зависимости от требований к согласованности.

📖

термины

Версионирование данных

Механизм отслеживания и управления изменениями данных с течением времени в Data Lake. Облегчает аудит, восстановление после ошибок и анализ временных тенденций.

📖

термины

Происхождение данных

Полная прослеживаемость жизненного цикла данных от их источника до конечного пункта назначения. Документирует преобразования, перемещения и отношения между различными сущностями данных.

📖

термины

Data Mesh

Децентрализованная архитектура управления данными, рассматривающая данные как распределенные продукты. Устраняет узкие места центральных команд, способствуя автономии функциональных доменов.

📖

термины

Delta Lake

Слой хранения с открытым исходным кодом, добавляющий транзакции ACID в Data Lakes, построенные на распределенных файловых системах. Позволяет выполнять обновления, удаления и временные запросы к данным parquet.

📖

термины

Apache Iceberg

Формат таблицы с открытым исходным кодом для больших аналитических Data Lakes, обеспечивающий оптимальную производительность запросов и эволюцию схемы без разрывов. Разделяет операции планирования и выполнения.

📖

термины

Apache Hudi

Фреймворк потоковой обработки данных, предоставляющий возможности пакетной обработки и обработки в реальном времени для Data Lakes. Позволяет выполнять инкрементальные обновления и удаления с гарантиями согласованности.

📖

термины

Data Virtualization

Подход к интеграции данных, позволяющий получать доступ и управлять данными без их физического перемещения из источников. Создает унифицированное и абстрактное представление распределенных данных.

📖

термины

Data Fabric

Унифицированная архитектура управления данными, интегрированная и интеллектуальная, облегчающая доступ к данным везде, где они находятся. Объединяет интеграцию, управление и оркестрацию данных бесшовным образом.

📖

термины

Zone Medallion

Архитектура Data Lake, организующая данные в три зоны: Bronze (сырые), Silver (очищенные) и Gold (агрегированные). Поэтапно структурирует данные для анализа и принятия решений.

Глоссарий ИИ

Data Lake

Data Swamp

Data Lakehouse

Data Ingestion

Schema-on-Read

Schema-on-Write

Data Catalog

Data Governance

Разделение данных

Шардинг данных

Репликация данных

Версионирование данных

Происхождение данных

Data Mesh

Delta Lake

Apache Iceberg

Apache Hudi

Data Virtualization

Data Fabric

Zone Medallion

Результаты не найдены