AI用語集
人工知能の完全辞典
リーフワイズ成長
レベルワイズ成長とは異なり、損失削減が最大のリーフを分割するように選択する木の分割戦略で、より浅い深さでより速い収束を可能にする。
特徴量ビニング
連続特徴量を離散的な区間(ビン)に離散化する技術で、分割点の計算を高速化しメモリ使用量を削減するが、わずかな精度の低下を伴う。
勾配ベース片面サンプリング(GOSS)
LightGBMの革新的なサンプリング手法で、大きな勾配を持つインスタンスを全て保持し、小さな勾配を持つインスタンスに対してランダムサンプリングを実施することで、精度を大幅に損なうことなく学習を高速化する。
排他的特徴量バンドリング(EFB)
相互に排他的な特徴量(同時に非ゼロになることが稀な特徴量)を特定し、単一の複合特徴量にまとめる次元削減アルゴリズムで、特徴量の数を削減する。
勾配ヒストグラム
LightGBMが勾配とヘッシアンをビンに格納するために使用するデータ構造で、木の構築時に各潜在的分割点の統計量を高速に計算することを可能にする。
葉の数
各木における最大葉数を制御するLightGBMの主要パラメータで、モデルの複雑さとバイアス-バリアンスのトレードオフに直接影響を与え、リーフワイズ成長では`max_depth`よりも重要。
L1およびL2正則化
葉の重みに適用される正則化パラメータ(`lambda_l1`、`lambda_l2`)で、それぞれ高い重みと重みの大きさを罰則することでモデルの複雑さを制御し、過学習を防ぐ。
葉内最小データ数
葉に必要な最小サンプル数(または最小総重量)で、過度に特化した葉の作成を回避し、LightGBMモデルにおける過学習に対抗するための重要なパラメータ。
CatBoost特徴量処理
LightGBMがカテゴリ特徴量をネイティブに処理する能力。特定の変換を使用してカテゴリ特徴量を整数にマッピングし、ワンホットエンコーディングの手動処理を回避し、効率を向上させる。
リーフワイズ成長の過学習
リーフワイズ成長に特有のリスク。モデルが非常に深く専門化されたリーフを作成することで過学習する可能性があり、これを制御するには強化された正則化(例:`num_leaves`、`min_data_in_leaf`)が必要。
DART(ドロップアウトと多重加法回帰木の融合)
LightGBMに実装されたブースティングの変種。新しい木を追加する際に、以前の木に対してドロップアウト技術を適用し、特定のデータセットでの正則化と性能を向上させる。