AI用語集
人工知能の完全辞典
エンドツーエンドレイテンシ
ユーザーがリクエストを送信してから完全な応答を受信するまでの総経過時間の測定値で、QAシステムのすべての処理ステップを含みます。
セマンティックキャッシュ
クエリの意味的類似性に基づいて応答を一時的に保存するメカニズムであり、再計算なしに類似した質問に対して事前に計算された回答を迅速に提供することを可能にします。
リアルタイム転置インデックス
用語から文書へのマッピングを継続的に更新するデータ構造であり、新しく追加または変更されたデータの即時検索を可能にします。
Dense Retrievalモデル
文書とクエリを共通の意味空間で表現するためにベクトル埋め込みを使用するアプローチであり、高速かつ正確な検索に最適化されています。
オンラインニューラルリランキング
最も関連性の高い回答の順序を洗練させるために動的に適用されるディープラーニングモデルによって、検索結果を再評価するプロセスです。
非同期処理パイプライン
処理ステップがメインフローをブロックすることなく並列で実行されるアーキテクチャであり、ユーザーが知覚するレイテンシを削減します。
表現の事前計算
リアルタイムクエリ時にこのコストのかかるステップを排除するために、文書のエンコーディングベクトルを事前に生成して保存する戦略です。
ナレッジシャーディング
検索を並列化し、同時クエリのスループットを向上させるために、ナレッジベースを複数のノードに水平分割することです。
低レイテンシフィルタリング
より複雑なモデルによる処理の前に、ヒューリスティクスや軽量モデルを使用して無関係な候補を排除する高速フィルタリング層。
レスポンスストリーミング
生成され次第、断続的なフラグメントで応答を送信する方法で、長い応答における知覚される応答時間を向上させます。
ベクトルプルーニング
事前に計算された距離または類似性メトリクスに基づいて、関連性の低いベクトルを排除することで検索空間を縮小するプロセス。
GPUバッチ推論
複数のリクエストをグループ化してGPU上で同時に処理する最適化技術で、リソース利用率を最大化し、リクエストあたりのレイテンシを削減します。
ハイブリッド検索システム
低レイテンシを維持しながら精度と再現率のバランスを取るために、キーワード検索(スパース)とセマンティック検索(デンス)を組み合わせたアーキテクチャ。
持続的接続(WebSocket)
クライアントとサーバーの間で開かれたまま維持される双方向通信プロトコルで、各リクエストごとの接続オーバーヘッドなしで瞬時の交換を可能にします。
マルチレベルキャッシング
利用可能な最速のキャッシュからリクエストを処理するために、複数の層(例:メモリ、Redis、CDN)に応答を保存する戦略。
リクエストパスの最適化
ボトルネックを排除し、各ネットワークホップや処理を最小限に抑えるために、システム内を通るリクエストの経路を分析および洗練させること。