Глоссарий ИИ
Полный словарь искусственного интеллекта
OCR (Reconnaissance Optique de Caractères)
Processus de conversion d'images de texte imprimé ou manuscrit en données textuelles exploitables par machine. Cette technologie permet d'extraire automatiquement l'information contenue dans des documents numérisés.
Segmentation de texte
Technique consistant à diviser une image en régions distinctes représentant des lignes, mots ou caractères individuels. La segmentation est une étape cruciale qui détermine la précision globale du système OCR.
Binarisation d'image
Processus de conversion d'une image en niveaux de gris ou couleur en une image binaire noir et blanc. Cette transformation améliore le contraste entre le texte et l'arrière-plan pour faciliter la reconnaissance.
Prétraitement d'image
Ensemble des techniques appliquées aux images avant l'OCR pour améliorer la qualité et la lisibilité du texte. Inclut la correction d'inclinaison, l'élimination du bruit et l'amélioration du contraste.
OCR neuronal
Approche moderne de l'OCR utilisant des réseaux de neurones profonds pour reconnaître les caractères avec une précision supérieure. Cette méthode surpasse les algorithmes traditionnels basés sur des règles heuristiques.
Détection de zones de texte
Algorithme qui identifie et localise automatiquement les régions contenant du texte dans une image complexe. Cette étape permet de distinguer le texte des images, tableaux et autres éléments graphiques.
Reconnaissance d'écriture manuscrite
Sous-domaine spécialisé de l'OCR traitant de la conversion de l'écriture manuscrite en texte numérique. Cette tâche présente des défis supplémentaires dus à la variabilité individuelle des styles d'écriture.
Extraction de tableaux
Processus automatisé d'identification et de conversion des structures tabulaires dans des documents en données structurées. Nécessite la reconnaissance simultanée du texte et de la mise en page du tableau.
Многоязычный OCR
Способность системы OCR распознавать и обрабатывать текст на нескольких языках одновременно. Требует моделей, обученных на многоязычных корпусах, и автоматического определения языка.
Анализ макета
Процесс понимания структуры и организации документа, включая идентификацию заголовков, абзацев, столбцов и других элементов верстки. Необходим для сохранения исходного форматирования.
Нормализация символов
Техника стандартизации размера, ориентации и расстояния между символами перед распознаванием. Этот шаг снижает визуальную изменчивость для улучшения показателей распознавания.
Проверка орфографии
Пост-OCR процесс, использующий словари и языковые модели для исправления ошибок распознавания. Значительно повышает точность извлеченного текста.
Tesseract OCR
Движок OCR с открытым исходным кодом, первоначально разработанный HP, а затем поддерживаемый Google. Известен своей универсальностью и поддержкой более 100 языков с моделями глубокого обучения.
Обработка сложных документов
Способность современных систем OCR работать с документами со сложными макетами, включая изображения, таблицы и многоколоночные структуры. Требует продвинутых алгоритмов структурного анализа.
Индексация документов
Процесс извлечения и организации ключевой информации из оцифрованных документов для обеспечения быстрого и эффективного поиска. OCR часто является первым этапом этого процесса.
Распознавание форм
Специализация OCR, ориентированная на структурированное извлечение данных из предварительно напечатанных форм. Сочетает распознавание текста с пониманием структуры полей.
Гибридный OCR
Подход, объединяющий несколько техник OCR (на основе шаблонов, на основе признаков и нейронных) для максимизации точности распознавания. Использует алгоритмы слияния для выбора лучших результатов.
Лингвистическая постобработка
Набор техник, применяемых после начального распознавания для улучшения качества текста с использованием языковых моделей и грамматических правил. Необходимо для достижения показателей точности выше 99%.