検索ベースの質問応答

📖

用語

転置インデックス

各コンテンツ（単語や用語など）を、それが現れる文書のリストに関連付けるデータ構造であり、大規模なコレクションから関連する情報を迅速に検索するために最適化されています。

📖

用語

デンスリトリーバー

ドキュメントと質問を連続的な（密な）ベクトル空間にエンコードし、ニューラルネットワークを通じて、意味的に最も近い一致を見つける検索モデル。

📖

用語

スパースリトリーバー

質問とドキュメント間の正確なキーワード（用語）の一致に基づく検索アプローチで、大部分が空（疎）である高次元のベクトル表現を使用します。

📖

用語

BM25 (Best Match 25)

検索エンジンで使用される確率的ランキング関数で、用語の出現頻度とコレクション内での希少性に基づいて、クエリに対するドキュメントの関連性を評価します。

📖

用語

リランキング

最初のモデルが大量の候補を迅速に取得し、次に、より複雑で低速な2番目のモデルがそれらの候補を並べ替えて、最良の回答の選択を洗練させる2段階のプロセス。

📖

用語

FAISS (Facebook AI Similarity Search)

密なベクトルの高速な類似性検索とクラスタリングのために最適化されたライブラリで、情報検索のために数十億の埋め込み（embeddings）を効率的に管理できます。

📖

用語

最大内積検索

ベクトルデータベース内で、与えられたクエリベクトルとの内積を最大化するベクトルを見つける計算問題であり、密な検索において基礎となります。

📖

用語

近似最近傍探索

無視できる程度の精度の低下と引き換えに、速度とメモリ効率の大幅な向上を得て、クエリポイントに近いデータポイントを見つけるアルゴリズムの集合。

📖

用語

ColBERT（コンテキスト化された遅延相互作用）

クエリとドキュメントの各トークンをその文脈の中でエンコードし、トークン間の最大類似度の和に基づく遅延相互作用を通じて関連性を評価する検索モデル。

📖

用語

Elasticsearch

Apache Luceneに基づく分散型検索・分析エンジンであり、リアルタイムのインデックス作成およびクエリ機能により、情報検索システムを実装するために広く使用されている。

📖

用語

TF-IDF（単語頻度-逆文書頻度）

文書集合に対する文書内の単語の重要度を評価する統計的指標であり、文書内での出現頻度が高いほど値が大きくなり、文書集合全体での出現頻度が高いほど値が小さくなる。

AI用語集