Quantisation
Technique de compression reduisant la precision des poids d'un modele pour le rendre plus leger et rapide.
La quantisation est une technique de compression qui reduit la precision numerique des parametres d'un modele (ex : de 32 bits a 4 bits) pour diminuer sa taille en memoire et accelerer son execution.
Niveaux courants :
- • FP32 : precision complete (4 octets/parametre)
- • FP16/BF16 : demi-precision (2 octets)
- • INT8 : 8 bits (1 octet) - bonne qualite
- • INT4/GPTQ : 4 bits (0.5 octet) - compromis populaire
- • GGUF : format optimise pour le CPU (llama.cpp)
Impact pratique :
- • Un modele 70B en FP16 = ~140 Go de RAM
- • Le meme en INT4 = ~35 Go de RAM → tourne sur un bon PC
La quantisation permet de faire tourner des modeles puissants sur du materiel grand public. Des outils comme llama.cpp, Ollama et GGUF ont democratise l'execution locale de LLM.