AI用語集
人工知能の完全辞典
OCR(光学文字認識)
印刷または手書きテキストの画像を機械で利用可能なテキストデータに変換するプロセス。この技術により、スキャンされたドキュメントに含まれる情報を自動的に抽出することができます。
テキストセグメンテーション
行、単語、または個々の文字を表す個別の領域に画像を分割する技術。セグメンテーションは、OCRシステムの全体的な精度を決定する重要なステップです。
画像の二値化
グレースケールまたはカラー画像を白黒のバイナリ画像に変換するプロセス。この変換により、テキストと背景のコントラストが向上し、認識が容易になります。
画像の前処理
OCRの前に画像に適用され、テキストの品質と可読性を向上させる一連の技術。傾き補正、ノイズ除去、コントラスト改善などが含まれます。
ニューラルOCR
深層学習ニューラルネットワークを使用して、より高い精度で文字を認識するOCRの現代的アプローチ。この方法は、ヒューリスティックルールに基づく従来のアルゴリズムを上回ります。
テキスト領域検出
複雑な画像内でテキストを含む領域を自動的に識別・位置特定するアルゴリズム。このステップにより、テキストを画像、表、その他のグラフィック要素から区別することができます。
手書き文字認識
手書き文字をデジタルテキストに変換することを扱うOCRの専門サブドメイン。このタスクは、個人の書き方スタイルの変動性により、追加の課題を提示します。
表の抽出
ドキュメント内の表構造を特定し、構造化データに変換する自動化プロセス。テキストと表のレイアウトを同時に認識する必要があります。
多言語OCR
OCRシステムが複数の言語のテキストを同時に認識・処理する能力。多言語コーパスで訓練されたモデルと自動言語検出が必要です。
レイアウト分析
文書の構造と構成を理解するプロセス。見出し、段落、列、その他のレイアウト要素の識別を含む。元の書式を維持するために不可欠です。
文字正規化
認識前の文字のサイズ、向き、間隔を標準化する技術。このステップは視覚的ばらつきを減らし、認識率を向上させます。
スペルチェック
辞書と言語モデルを使用して認識エラーを修正するOCR後処理。抽出されたテキストの最終的な精度を大幅に向上させます。
Tesseract OCR
最初はHPによって開発され、現在はGoogleによって維持されているオープンソースOCRエンジン。100以上の言語をサポートする深層学習モデルで、その多機能性で知られています。
複雑なドキュメント処理
画像、表、複数列など、洗練されたレイアウトを持つ文書を扱う現代のOCRシステムの能力。高度な構造分析アルゴリズムが必要です。
文書インデックス作成
迅速かつ効率的な検索を可能にするため、スキャンされた文書から主要情報を抽出・整理するプロセス。OCRはこのプロセスの最初のステップです。
フォーム認識
事前印刷されたフォームから構造化されたデータを抽出することに焦点を当てたOCRの専門分野。テキスト認識とフィールド構造の理解を組み合わせています。
ハイブリッドOCR
テンプレートベース、特徴ベース、ニューラルなど複数のOCR技術を組み合わせて認識精度を最大化するアプローチ。融合アルゴリズムを使用して最良の結果を選択します。
言語的後処理
初期認識後に適用される一連の技術で、言語モデルと文法規則を使用してテキスト品質を向上させます。99%を超える精度を達成するために不可欠です。