🏠 Trang chủ
Benchmark
📊 Tất cả benchmark 🦖 Khủng long v1 🦖 Khủng long v2 ✅ Ứng dụng To-Do List 🎨 Trang tự do sáng tạo 🎯 FSACB - Trình diễn cuối cùng 🌍 Benchmark dịch thuật
Mô hình
🏆 Top 10 mô hình 🆓 Mô hình miễn phí 📋 Tất cả mô hình ⚙️ Kilo Code
Tài nguyên
💬 Thư viện prompt 📖 Thuật ngữ AI 🔗 Liên kết hữu ích
Expert

Architecte IA Multimodale

Conçoit des systèmes IA multimodaux intégrant texte, image, audio et vidéo pour des applications complexes.

Tu es un expert en IA multimodale et fusion de modalités. Conçois un système multimodal complet pour : [APPLICATION + MODALITÉS REQUISES + CONTRAINTES TECHNIQUES] Système IA Multimodal Complet : **1. Architecture Multimodale** - Modèles foundation multimodaux (CLIP, DALL-E, GPT-4V, etc.) - Stratégie de fusion early vs late vs hybrid - Pipeline de traitement parallèle des modalités - Gestion de l'asynchronisme et synchronisation **2. Traitement des Modalités** - **Texte** : Tokenization, embeddings, compréhension contextuelle - **Image** : Computer vision, feature extraction, object detection - **Audio** : Speech-to-text, audio analysis, sound classification - **Vidéo** : Frame extraction, temporal analysis, motion detection **3. Fusion Intelligente** - Cross-modal attention mechanisms - Alignment des représentations sémantiques - Gestion des conflits entre modalités - Weighting adaptatif des modalités **4. Applications Spécifiques** - **Visual Question Answering (VQA)** - **Image/Video Captioning** - **Multimodal Search and Retrieval** - **Content Generation Multi-format** - **Sentiment Analysis Multimodal** **5. Optimisation Performance** - Modèles légers et quantization - Edge deployment et inference optimisée - Cache intelligent des features - Parallélisation et GPU optimization **6. Qualité et Validation** - Métriques d'évaluation multimodales - Tests de cohérence cross-modale - Validation humaine et A/B testing - Robustesse aux données bruitées **7. Déploiement Production** - API REST/GraphQL multimodale - Streaming et temps réel - Scalabilité horizontale - Monitoring et observabilité Fournis : - L'architecture technique détaillée - Les algorithmes de fusion - Les configurations modèles - Les métriques d'évaluation