Inference
Phase d'utilisation d'un modele entraine pour produire des predictions ou generations a partir de nouvelles donnees.
L'inference est la phase ou un modele d'IA deja entraine est utilise pour produire des resultats (predictions, generations, classifications) a partir de nouvelles donnees d'entree.
Comparaison :
- • Entrainement : le modele apprend (couteux, long, une fois)
- • Inference : le modele repond (rapide, repete, chaque utilisation)
Quand vous envoyez un message a ChatGPT, c'est de l'inference.
Optimisation de l'inference :
- • Quantisation : reduire la precision pour accelerer
- • Batching : traiter plusieurs requetes simultanement
- • KV caching : eviter de recalculer les tokens precedents
- • Speculative decoding : accelerer la generation avec un petit modele
Cout de l'inference :
- • GPT-5.4 : ~5$/M tokens en entree, ~15$/M tokens en sortie
- • Claude Opus 4.6 : ~15$/M tokens en entree, ~75$/M tokens en sortie
- • Modeles open source locaux : cout materiel uniquement
L'optimisation de l'inference est devenue un enjeu majeur car le cout de l'inference depasse largement le cout de l'entrainement sur la duree de vie d'un modele.