Глоссарий ИИ
Полный словарь искусственного интеллекта
Сегментирование документов
Процесс разделения больших документов на более мелкие и связные фрагменты для оптимизации их обработки языковыми моделями и системами векторного поиска.
Сегментирование с фиксированным размером
Стратегия сегментирования, разбивающая документы на фрагменты предопределенного размера на основе постоянного количества символов, слов или токенов.
Семантическое сегментирование
Подход к сегментированию, основанный на семантическом понимании содержания, создающий фрагменты, сохраняющие тематическую и контекстуальную связность.
Рекурсивное разделение по символам
Иерархический метод сегментирования, который разделяет документы по последовательности разделителей (абзацы, предложения, слова) до достижения желаемого размера фрагмента.
Сегментирование на основе токенов
Стратегия сегментирования, использующая токены в качестве базовой единицы, что важно для соблюдения контекстных ограничений языковых моделей, таких как GPT или BERT.
Перекрывающиеся сегменты
Техника создания фрагментов с областями перекрытия для сохранения контекста между смежными сегментами и улучшения связности при извлечении информации.
Иерархическое сегментирование
Многоуровневый подход, организующий фрагменты в иерархическую структуру (главы, разделы, абзацы) для обеспечения контекстного извлечения на разных уровнях детализации.
Сегментирование скользящим окном
Метод, при котором окно фиксированного размера перемещается по документу с определенным шагом, создавая последовательные фрагменты с контролируемым перекрытием.
Чанкинг с учетом Markdown
Интеллектуальная стратегия сегментации, которая учитывает структуру Markdown документов, разбивая на логические границы заголовков, списков и блоков кода.
Контекстно-ориентированный чанкинг
Продвинутый подход, учитывающий глобальный семантический контекст документа для определения оптимальных точек разрыва, сохраняющих нарративную согласованность.
Чанкинг на основе эмбеддингов
Метод, использующий семантические эмбеддинги для идентификации естественных границ между тематически различными сегментами в документе.
Гибридная стратегия чанкинга
Комбинация нескольких техник сегментации, таких как семантический чанкинг с фиксированными ограничениями размера, для оптимизации как согласованности, так и эффективности.
Динамическое определение размера чанков
Адаптивный подход, регулирующий размер фрагментов в зависимости от плотности информации и семантической сложности каждого раздела документа.
Чанкинг с обогащенными метаданными
Техника, связывающая контекстные метаданные (позиция, родительский заголовок, иерархический уровень) с каждым фрагментом для улучшения извлечения и восстановления контекста.
Междокументный чанкинг
Продвинутая стратегия сегментации наборов связанных документов на согласованные фрагменты, сохраняющие междокументные отношения для лучшего глобального понимания.
Многоуровневый чанкинг
Подход, создающий несколько уровней фрагментов (резюме, детальные разделы, параграфы) для обеспечения гибкого извлечения в соответствии с потребностями в гранулярности.
Адаптивное Чанкование
Интеллектуальная система, динамически корректирующая стратегию сегментации в зависимости от типа документа, области применения и наблюдаемых паттернов использования.