🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích
advanced

Phân tích và lựa chọn mô hình dự báo

#data-science #machine-learning #feature-engineering

Đánh giá các thuật toán học máy cho dữ liệu phức tạp có độ cao lớn.

Giả sử bạn có một tập dữ liệu chứa 1 triệu bản ghi với 50 đặc trưng, trong đó có nhiều biến phân loại (categorical variables) có độ cao (high cardinality) và mục tiêu là một biến nhị phân. Hãy so sánh hiệu suất tiềm năng giữa Random Forest, XGBoost và Logistic Regression. Đề xuất một quy trình kỹ thuật đặc trưng (feature engineering) cụ thể để xử lý các biến phân loại này và giải thích cách bạn sẽ xử lý vấn đề mất cân bằng lớp (class imbalance).