advanced

극도로 불균형한 금융 사기 탐지 데이터셋 처리 전략

#machine-learning #data-science #imbalanced-data #finance

정상 거래와 사기 거래의 비율이 9999:1인 데이터셋을 사용하여 머신러닝 모델의 성능을 극대화할 수 있는 데이터 전처리 및 평가 전략을 수립하십시오.

📝 提示内容

금융 거래 데이터에서 사기 거래의 비율이 0.01%에 불과한 극도로 불균형한 상황을 가정합니다. 단순히 Accuracy만을 보는 것이 얼마나 위험한지 설명하고, SMOTE, ADASYN 등의 오버샘플링 기법과 언더샘플링 기법을 적절히 결합한 데이터 전처리 파이프라인을 설계하십시오. 또한, Precision-Recall Curve, AUPRC, F1-Score 등 적절한 평가 지표를 선택하여 모델을 평가하는 체계적인 접근 방식을 제시하십시오. 앙상블 기법(예: BalancedRandomForest, RUSBoost)을 활용하여 일반화 성능을 높이는 구체적인 알고리즘 구현 계획도 포함하십시오.

常规

극도로 불균형한 금융 사기 탐지 데이터셋 처리 전략