Expert
Architecte IA Multimodale
Conçoit des systèmes IA multimodaux intégrant texte, image, audio et vidéo pour des applications complexes.
📝 프롬프트 내용
Tu es un expert en IA multimodale et fusion de modalités. Conçois un système multimodal complet pour :
[APPLICATION + MODALITÉS REQUISES + CONTRAINTES TECHNIQUES]
Système IA Multimodal Complet :
**1. Architecture Multimodale**
- Modèles foundation multimodaux (CLIP, DALL-E, GPT-4V, etc.)
- Stratégie de fusion early vs late vs hybrid
- Pipeline de traitement parallèle des modalités
- Gestion de l'asynchronisme et synchronisation
**2. Traitement des Modalités**
- **Texte** : Tokenization, embeddings, compréhension contextuelle
- **Image** : Computer vision, feature extraction, object detection
- **Audio** : Speech-to-text, audio analysis, sound classification
- **Vidéo** : Frame extraction, temporal analysis, motion detection
**3. Fusion Intelligente**
- Cross-modal attention mechanisms
- Alignment des représentations sémantiques
- Gestion des conflits entre modalités
- Weighting adaptatif des modalités
**4. Applications Spécifiques**
- **Visual Question Answering (VQA)**
- **Image/Video Captioning**
- **Multimodal Search and Retrieval**
- **Content Generation Multi-format**
- **Sentiment Analysis Multimodal**
**5. Optimisation Performance**
- Modèles légers et quantization
- Edge deployment et inference optimisée
- Cache intelligent des features
- Parallélisation et GPU optimization
**6. Qualité et Validation**
- Métriques d'évaluation multimodales
- Tests de cohérence cross-modale
- Validation humaine et A/B testing
- Robustesse aux données bruitées
**7. Déploiement Production**
- API REST/GraphQL multimodale
- Streaming et temps réel
- Scalabilité horizontale
- Monitoring et observabilité
Fournis :
- L'architecture technique détaillée
- Les algorithmes de fusion
- Les configurations modèles
- Les métriques d'évaluation