AI用語集
人工知能の完全辞典
ドキュメントチャンキング
大規模な文書をより小さく一貫性のある断片に分割するプロセスで、言語モデルやベクトル検索システムによる処理を最適化する。
固定サイズチャンキング
文書を事前に定義されたサイズの断片に分割する戦略で、一定の文字数、単語数、またはトークン数に基づく。
セマンティックチャンキング
コンテンツの意味的理解に基づく分割アプローチで、主題的一貫性と文脈的一貫性を保持する断片を作成する。
再帰的文字分割
文書を一連の区切り文字(段落、文、単語)に従って階層的に分割し、希望する断片サイズに達するまで分割を続ける方法。
トークンベースチャンキング
トークンを基本単位として使用する分割戦略で、GPTやBERTなどの言語モデルのコンテキスト制限を遵守するために不可欠。
オーバーラップチャンク
隣接するセグメント間の文脈を保持し、検索時の一貫性を向上させるために、重複領域を持つ断片を作成する技術。
階層的チャンキング
断片を階層構造(章、節、段落)に従って整理するマルチレベルアプローチで、異なる粒度での文脈的検索を可能にする。
スライディングウィンドウチャンキング
定義されたステップで固定サイズのウィンドウを文書上でスライドさせ、制御された重複を持つ連続的な断片を作成する方法。
Markdown対応チャンキング
ドキュメントのMarkdown構造を尊重するスマートなセグメンテーション戦略で、見出し、リスト、コードブロックの論理的な境界で分割します。
コンテキスト対応チャンキング
ドキュメントのグローバルな意味的コンテキストを考慮した高度なアプローチで、物語の一貫性を保つ最適な分割点を決定します。
埋め込みベースチャンキング
意味的埋め込みを使用して、ドキュメント内の主題的に異なるセグメント間の自然な境界を識別する方法。
ハイブリッドチャンキング戦略
意味的チャンキングと固定サイズ制限など、複数のセグメンテーション技術を組み合わせ、一貫性と効率の両方を最適化します。
動的チャンクサイジング
ドキュメントの各セクションの情報密度と意味的複雑さに応じてフラグメントサイズを調整する適応的アプローチ。
メタデータ強化チャンキング
コンテキストメタデータ(位置、親タイトル、階層レベル)を各フラグメントに関連付け、コンテキストの検索と再構築を改善する技術。
クロスドキュメントチャンキング
関連するドキュメントセットを一貫したフラグメントに分割し、ドキュメント間の関係を保持して全体的な理解を向上させる高度な戦略。
マルチレベルチャンキング
複数のレベルのフラグメント(要約、詳細セクション、段落)を作成し、粒度のニーズに応じた柔軟な検索を可能にするアプローチ。
適応的チャンキング
ドキュメントの種類、ドメイン、観測された使用パターンに基づいて、セグメンテーション戦略を動的に調整するインテリジェントなシステム。