Глоссарий ИИ
Полный словарь искусственного интеллекта
Data Lake
Централизованное хранилище данных, предназначенное для хранения больших объемов сырых данных в их исходном формате. Позволяет хранить структурированные, полуструктурированные и неструктурированные данные в масштабе петабайт.
Data Swamp
Data Lake, который потерял управление и организацию, что делает данные труднодоступными и неудобными для использования. Является результатом отсутствия управления метаданными и надлежащей документации.
Data Lakehouse
Гибридная архитектура, сочетающая преимущества Data Lakes и хранилищ данных для обеспечения унифицированного управления данными. Позволяет проводить анализ непосредственно на данных, хранящихся в открытом формате, оптимизированном для производительности.
Data Ingestion
Процесс сбора и передачи данных из различных источников в централизованную систему хранения, такую как Data Lake. Может выполняться в реальном времени, пакетно или потоково в зависимости от бизнес-потребностей.
Schema-on-Read
Подход, при котором структура данных применяется в момент чтения, а не записи. Обеспечивает максимальную гибкость для хранения разнородных данных без предварительного определения схемы.
Schema-on-Write
Традиционная методология, при которой схема данных должна быть определена до их записи в систему. Гарантирует качество и согласованность данных, но снижает гибкость хранения.
Data Catalog
Организованные и индексированные метаданные, описывающие доступные данные в Data Lake. Облегчает обнаружение, понимание и управление данными через централизованный интерфейс.
Data Governance
Совокупность политик, процедур и стандартов, определяющих управление данными в организации. Обеспечивает качество, безопасность, соответствие требованиям и надлежащее использование данных Data Lake.
Разделение данных
Техника разделения данных на более мелкие сегменты на основе определенных критериев, таких как дата или категория. Она оптимизирует производительность запросов, ограничивая чтение соответствующими разделами.
Шардинг данных
Горизонтальное разделение распределенных данных на нескольких серверах для улучшения масштабируемости и производительности. Каждый шард содержит уникальное подмножество общих данных.
Репликация данных
Процесс копирования данных из одного местоположения в другое для обеспечения высокой доступности и отказоустойчивости. Может быть синхронной или асинхронной в зависимости от требований к согласованности.
Версионирование данных
Механизм отслеживания и управления изменениями данных с течением времени в Data Lake. Облегчает аудит, восстановление после ошибок и анализ временных тенденций.
Происхождение данных
Полная прослеживаемость жизненного цикла данных от их источника до конечного пункта назначения. Документирует преобразования, перемещения и отношения между различными сущностями данных.
Data Mesh
Децентрализованная архитектура управления данными, рассматривающая данные как распределенные продукты. Устраняет узкие места центральных команд, способствуя автономии функциональных доменов.
Delta Lake
Слой хранения с открытым исходным кодом, добавляющий транзакции ACID в Data Lakes, построенные на распределенных файловых системах. Позволяет выполнять обновления, удаления и временные запросы к данным parquet.
Apache Iceberg
Формат таблицы с открытым исходным кодом для больших аналитических Data Lakes, обеспечивающий оптимальную производительность запросов и эволюцию схемы без разрывов. Разделяет операции планирования и выполнения.
Apache Hudi
Фреймворк потоковой обработки данных, предоставляющий возможности пакетной обработки и обработки в реальном времени для Data Lakes. Позволяет выполнять инкрементальные обновления и удаления с гарантиями согласованности.
Data Virtualization
Подход к интеграции данных, позволяющий получать доступ и управлять данными без их физического перемещения из источников. Создает унифицированное и абстрактное представление распределенных данных.
Data Fabric
Унифицированная архитектура управления данными, интегрированная и интеллектуальная, облегчающая доступ к данным везде, где они находятся. Объединяет интеграцию, управление и оркестрацию данных бесшовным образом.
Zone Medallion
Архитектура Data Lake, организующая данные в три зоны: Bronze (сырые), Silver (очищенные) и Gold (агрегированные). Поэтапно структурирует данные для анализа и принятия решений.