AI用語集
人工知能の完全辞典
ベクトル埋め込み
多次元ベクトル空間におけるテキストまたは視覚的オブジェクトの高密度な数値表現で、その基本的な意味的特徴を捉える。これらの埋め込みにより、機械はデータの意味を定量的に理解し比較することが可能となる。
ベクトルデータベース
高次元ベクトル表現を効率的に保存、索引付け、検索するために最適化された専門データベース。HNSWやIVFなどの高度な索引構造を使用して類似性検索を高速化する。
セマンティック検索
単なるキーワードの完全一致に依存するのではなく、クエリの背後にある意図と文脈的意味を理解する検索手法。語彙を共有していなくても、埋め込みを使用して概念的に類似した文書を見つける。
次元削減
重要な意味的関係を保持しながら埋め込みの次元数を削減するアルゴリズム的プロセス。PCAやt-SNEなどの技術により、ストレージの最適化と類似性計算の高速化が可能となる。
ベクトルインデックス
網羅的な比較なしに高速な最近傍検索を可能にするためにベクトルを整理する最適化されたデータ構造。HNSW、IVF、LSHなどのインデックスは、クエリの時間的複雑さを大幅に削減する。
ベクトル正規化
コサイン類似性比較を標準化するために単位ノルムを持つようにベクトルをスケーリングするプロセス。この技術はベクトルの大きさに関連するバイアスを排除し、意味的方向のみに焦点を当てる。
埋め込みモデル
テキストやその他のデータを高密度なベクトル表現に変換する事前学習済みニューラルネットワーク。BERT、Sentence-BERT、OpenAI埋め込みなどのモデルは、そのアーキテクチャに応じて異なる意味的ニュアンスを捉える。
HNSW(階層ナビゲーション可能な小世界)
複数の接続層を作成して最近傍検索を高速化するグラフ索引構造。構築速度、メモリ効率、検索品質の優れたバランスを提供する。
IVF(逆ファイルインデックス)
ベクトル空間を領域(逆リスト)に分割し、検索を関連する領域に限定するインデックス手法。ANN検索における精度とパフォーマンスのバランスを取るために、粗い量子化器と細かい量子化器を組み合わせる。
距離指標
埋め込み空間内の2つのベクトル間の非類似性を定量化する数学的関数。一般的な指標にはユークリッド距離、コサイン類似度、マンハッタン距離があり、それぞれ異なるユースケースに適している。
ベクトルストア
RAGアーキテクチャにおいて、文書の埋め込みの効率的な保存と検索を担当するコンポーネント。ベクトルの永続化、インデックス作成、問い合わせを管理し、拡張生成システムを支える。
密な検索
密な埋め込みを使用して、文書とクエリ間の深い意味的関係を捉える情報検索アプローチ。文脈や意図を理解する点で、TF-IDFのような疎な手法を凌駕する。
埋め込みキャッシュ
事前計算された埋め込みを保存し、冗長な計算を避けて応答を高速化するキャッシュシステム。反復的または類似したクエリを処理するRAGシステムのパフォーマンスにおいて重要。
チャンク埋め込み
文書全体ではなく文書のセグメントに対して埋め込みを作成するプロセス。より細かい粒度での検索と精度の向上を可能にする。最適なチャンクサイズはドメインと文脈要件に依存する。
ベクトルメタデータ
各ベクトルに関連付けられた情報で、ソース文書の識別子、タイムスタンプ、関連性スコア、その他のフィルタリング可能な属性を含む。メタデータにより検索結果の精密な絞り込みが可能になる。