Inference

L'inference est la phase ou un modele d'IA deja entraine est utilise pour produire des resultats (predictions, generations, classifications) a partir de nouvelles donnees d'entree.

Comparaison :

• Entrainement : le modele apprend (couteux, long, une fois)
• Inference : le modele repond (rapide, repete, chaque utilisation)

Quand vous envoyez un message a ChatGPT, c'est de l'inference.

Optimisation de l'inference :

• Quantisation : reduire la precision pour accelerer
• Batching : traiter plusieurs requetes simultanement
• KV caching : eviter de recalculer les tokens precedents
• Speculative decoding : accelerer la generation avec un petit modele

Cout de l'inference :

• GPT-5.4 : ~5$/M tokens en entree, ~15$/M tokens en sortie
• Claude Opus 4.6 : ~15$/M tokens en entree, ~75$/M tokens en sortie
• Modeles open source locaux : cout materiel uniquement

L'optimisation de l'inference est devenue un enjeu majeur car le cout de l'inference depasse largement le cout de l'entrainement sur la duree de vie d'un modele.

Ressources externes

Termes lies

GPU (Graphics Processing Unit)

Quantisation

LLM (Large Language Model)