Глоссарий ИИ
Полный словарь искусственного интеллекта
Apache Kafka
Распределенная платформа потоковой передачи данных с открытым исходным кодом, предназначенная для обработки потоков данных в реальном времени с высокой пропускной способностью и низкой задержкой, используемая как брокер сообщений и система хранения логов.
Apache Flink
Распределенный фреймворк для потоковой и пакетной обработки, который предоставляет возможности сложной обработки событий с управлением состоянием и семантикой exactly-once для приложений реального времени.
Windowing
Фундаментальная техника потоковой обработки, которая разделяет непрерывный поток данных на временные окна или окна на основе подсчета для выполнения агрегаций и анализа над подмножествами данных.
Backpressure
Механизм управления потоком, который позволяет системам обработки регулировать скорость производителей данных, когда потребители не могут успевать за темпом, предотвращая таким образом насыщение системы.
Watermark
Временная метка, встроенная в поток данных, которая позволяет отслеживать прогресс событийного времени и управлять поздними данными в системах потоковой обработки.
Stateful Processing
Парадигма обработки, при которой операции поддерживают постоянное состояние между событиями, необходимое для агрегаций, соединений и обнаружения сложных паттернов в потоках данных.
Exactly-Once Semantics
Гарантия обработки, которая обеспечивает, что каждое событие в потоке обрабатывается точно один раз, даже в случае сбоев, сочетая доставку at-least-once с дедупликацией на стороне потребителя.
CEP (Complex Event Processing)
Технология обработки событий, которая идентифицирует значимые паттерны и сложные корреляции из множественных потоков событий в реальном времени для запуска немедленных действий.
Микропакетная обработка
Гибридный подход, который обрабатывает потоки данных, собирая микропакеты событий за короткие интервалы, сочетая преимущества пакетной обработки и чистой событийной обработки.
Event Sourcing
Архитектурный шаблон, при котором все изменения состояния записываются как неизменяемая последовательность событий, позволяя восстанавливать прошлые состояния и проводить полный аудит системы.
Apache Storm
Распределенная система обработки потоков в реальном времени, предназначенная для чрезвычайно низких задержек, использующая топологию spouts и bolts для преобразования и анализа потоков данных.
Capture изменений данных (CDC)
Техника, которая захватывает и распространяет изменения данных из транзакционных баз данных в системы потоковой обработки в реальном времени, обеспечивая синхронизацию и непрерывный анализ.
Время события vs Время обработки
Два фундаментальных временных понятия, где время события соответствует моменту, когда событие произошло, а время обработки - моменту, когда оно обрабатывается системой.
Потоковая аналитика
Дисциплина, которая применяет передовые аналитические методы к непрерывным потокам данных для извлечения инсайтов, обнаружения аномалий и принятия решений в реальном времени.
Потоковый конвейер данных
Архитектура конвейера данных, специально разработанная для непрерывной обработки, где данные проходят через несколько этапов преобразования и обогащения без промежуточного хранения.
Очередь сообщений
Промежуточный компонент, который обеспечивает асинхронную связь между производителями и потребителями сообщений, гарантируя надежную доставку событий в распределенных архитектурах.
ETL в реальном времени
Процесс извлечения, преобразования и загрузки данных, который выполняется непрерывно в реальном времени на потоках данных, в отличие от традиционного пакетного ETL, который выполняется периодически.
Apache Beam
Унифицированная платформа для пакетной и потоковой обработки данных, предоставляющая абстрактную модель программирования, которая может выполняться на различных раннерах, таких как Flink, Spark или Dataflow.