Multimodal
Modele d'IA capable de traiter et generer plusieurs types de donnees : texte, images, audio, video.
Un modele multimodal est un systeme d'IA capable de comprendre et/ou generer plusieurs types de donnees (modalites) : texte, images, audio, video, et parfois code.
Exemples de modeles multimodaux :
- • GPT-5.4 : texte + images + audio en entree et sortie
- • Claude Opus 4.6 : texte + images en entree
- • Gemini 3.1 Pro : texte + images + audio + video
- • Sora : texte vers video
Capacites typiques :
- • Decrire une image en texte
- • Generer une image a partir de texte
- • Repondre a des questions sur une image
- • Transcrire de l'audio en texte
- • Comprendre des graphiques et tableaux
La tendance est clairement vers des modeles de plus en plus multimodaux, capables d'interagir avec le monde de maniere naturelle via plusieurs sens simultanement.