Quantisation

La quantisation est une technique de compression qui reduit la precision numerique des parametres d'un modele (ex : de 32 bits a 4 bits) pour diminuer sa taille en memoire et accelerer son execution.

Niveaux courants :

• FP32 : precision complete (4 octets/parametre)
• FP16/BF16 : demi-precision (2 octets)
• INT8 : 8 bits (1 octet) - bonne qualite
• INT4/GPTQ : 4 bits (0.5 octet) - compromis populaire
• GGUF : format optimise pour le CPU (llama.cpp)

Impact pratique :

• Un modele 70B en FP16 = ~140 Go de RAM
• Le meme en INT4 = ~35 Go de RAM → tourne sur un bon PC

La quantisation permet de faire tourner des modeles puissants sur du materiel grand public. Des outils comme llama.cpp, Ollama et GGUF ont democratise l'execution locale de LLM.

Ressources externes

Termes lies

SLM (Small Language Model)

Modele open source

Inference