📊 Kết Quả Kiểm Tra
Tổng quan hiệu suất các mô hình AI được đánh giá
Mô Hình Được Kiểm Tra
Tài liệu tham khảoPhạm Vi AI
Xuất sắcChỉ Số Được Đánh Giá
Mới🤖 Kết quả theo mô hình
Hiệu suất chi tiết của từng mô hình AI được thử nghiệm
AMP
Thử nghiệm tạo trang AMP
Andromeda Alpha
Mô hình thử nghiệm tiên tiến
ChatGPT-5
Thế hệ OpenAI mới nhất
Claude Haiku 4.5
Phiên bản thơ ca Anthropic
Claude Sonnet 4.5
Phiên bản cân bằng Anthropic
DeepSeek 3.1
Mô hình Trung Quốc tiên tiến
Gemini 2.5
Phiên bản Google mới nhất
GLM 4.6
Mô hình Zai-org
Grok Fast 1
Phiên bản xAI nhanh
Herme 4 405B
Mô hình tham số 405B
Kimi K2
Phiên bản Kimi tiên tiến
Ling 1T
Mô hình tham số 1 nghìn tỷ
LongCat Flash Chat
Trò chuyện siêu nhanh
Metal Llama 4 Maverick
Phiên bản maverick
MiniMax
Mô hình nhỏ gọn được tối ưu hóa
Mistral
Mô hình châu Âu
Pickle
Mô hình chuyên dụng
Qwen 3 Coder
Chuyên về lập trình
Supernova
Mô hình bùng nổ
Tongyi DeepResearch
Chuyên về nghiên cứu
🔬 Phương pháp luận khoa học
Cách tiếp cận nghiêm ngặt của chúng tôi để đánh giá các mô hình AI
Giao thức thử nghiệm tiêu chuẩn hóa
Mỗi mô hình được đánh giá theo một phương pháp luận nghiêm ngặt và có thể lặp lại
📝 Tạo Mã
Phân tích tĩnh mã được tạo, kiểm thử đơn vị và đánh giá độ phức tạp thuật toán
🎯 Độ Chính Xác Ngữ Nghĩa
Đánh giá mức độ liên quan của câu trả lờ đối với câu hỏi và ngữ cảnh
⚡ Hiệu Suất Thờ Gian
Đo thờ gian phản hồi, độ trễ và khả năng quản lý tải
🔄 Tính Mạch Lạc Ngữ Cảnh
Khả năng duy trì ngữ cảnh trong các cuộc trò chuyện dài và tương tác phức tạp