🏠 Strona Główna
Benchmarki
📊 Wszystkie benchmarki 🦖 Dinozaur v1 🦖 Dinozaur v2 ✅ Aplikacje To-Do List 🎨 Kreatywne wolne strony 🎯 FSACB - Ostateczny pokaz 🌍 Benchmark tłumaczeń
Modele
🏆 Top 10 modeli 🆓 Darmowe modele 📋 Wszystkie modele ⚙️ Kilo Code
Zasoby
💬 Biblioteka promptów 📖 Słownik AI 🔗 Przydatne linki
متقدم

تحليل وتنظيف البيانات المعقدة

#علم البيانات #تعلم الآلة #بايثون

اقتراح منهجية للتعامل مع مجموعات بيانات فوضوية وعالية الأبعاد

لديك مجموعة بيانات غير متوازنة (Imbalanced Dataset) تحتوي على 5 ملايين سجل لمعاملات مالية، حيث 0.1% منها فقط تمثل احتيالًا. اشرح خطوات معالجة البيانات مسبقًا (Preprocessing) بالتفصيل، بما في ذلك التعامل مع القيم المفقودة، وتحديد الميزات (Feature Engineering)، وتقنيات الموازنة (SMOTE أو Random Under-sampling). ثم، قارن بين أداء خوارزميات الغابات العشوائية (Random Forest) و XGBoost في هذا السياق، مع توضيح مقاييس التقييم المناسبة غير الدقة (Accuracy).