多言語NER - AI用語集

📖

用語

クロスリンガル転移

ソース言語で訓練されたNERモデルが、ターゲット言語のアノテーション付きデータを必要とせずに、その知識を適用してターゲット言語のエンティティを認識する能力。

📖

用語

統一多言語モデル

複数の言語のデータで同時に訓練され、ベクトル表現を共有してユニバーサルなエンティティ認識パターンを捉えるNERアーキテクチャ。

📖

用語

ベクトル空間アライメント

異なる言語の意味空間を共通のベクトル空間に射影する技術により、モデルが異なる言語の単語やエンティティを処理・比較できるようにする。

📖

用語

多言語ファインチューニング

大規模な多言語コーパスで事前学習された言語モデルを、複数の言語でアノテーションされたデータセットを使用してNERタスクに特化させる適応プロセス。

📖

用語

コードスイッチングNER

話者が複数の言語をしばしば同じ文内で交互に使用するテキスト内のエンティティを認識するという、多言語NERの課題。

📖

用語

トランスリンガルエンティティ

Google（ブランド名）、ONU（組織名）、Barack Obama（人名）のように、複数の言語にわたって同じ形または参照を維持する固有表現。

📖

用語

多言語ドメイン適応

複数の言語でアノテーションなしまたは少ないアノテーションのデータを使用して、多言語NERモデルを特定のドメイン（医療、法的など）に調整する技術。

📖

用語

多言語文字埋め込み

言語間で共有される文字レベルのベクトル表現で、モデルが類似の形態（例：ラテン語の語根）を捉え、新しい単語に一般化することを可能にする。

📖

用語

射影アノテーション (Projected Annotation)

注釈付きソース言語からエンティティラベルを射影するために機械翻訳システムを使用して、ターゲット言語でNER訓練データを作成する方法。

📖

用語

低リソースモデル (Low-Resource NER)

リソースが豊富な言語からの学習転移を通じて、1つまたは複数のターゲット言語で非常に限られた量の注釈付きデータで動作するように設計されたNERシステム。

📖

用語

多言語エンティティ正規化

「New York」、「Nueva York」、「New York City」など、同じエンティティの異なる言語的または正書法的バリアントを単一の正規識別子の下にグループ化するタスク。

📖

用語

多言語評価

言語ごとおよび集計的に計算された標準メトリック（精度、再現率、F1スコア）を使用して、多様な言語セットでNERシステムのパフォーマンスを測定するプロセス。

📖

用語

大規模多言語言語モデル (mLLM)

mBERTやXLM-Rのような数百の言語で事前訓練されたファウンデーションモデルで、ファインチューニングによって高性能な多言語NERシステムを構築するための基礎として機能する。

📖

用語

NERのための言語検出

適切なエンティティ認識モデルを有効にするために、入力テキストの言語を識別することからなる多言語NERパイプラインにおける重要な予備ステップ。

📖

用語

スクリプト独立型 (Script-Independent NER)

ラテン文字、キリル文字、アラビア文字など、書記系に関係なくエンティティを認識するNERモデルの能力で、言語の抽象的な表現に依存する。

📖

用語

NERのための逆翻訳 (Back-Translation for NER)

ソース言語の注釈付きテキストをターゲット言語に翻訳し、それからソース言語に再翻訳して、堅牢な新しい訓練例を作成するデータ拡張手法。

AI用語集