RLHF (Reinforcement Learning from Human Feedback)

Le RLHF (Reinforcement Learning from Human Feedback) est une technique d'entrainement qui utilise des retours humains pour affiner le comportement d'un modele d'IA, le rendant plus utile, honnete et inoffensif.

Etapes du RLHF : 1. Collecte de feedback : des annotateurs humains comparent plusieurs reponses du modele 2. Modele de recompense : un modele apprend a predire les preferences humaines 3. Optimisation : le LLM est entraine par renforcement pour maximiser la recompense predite

Le RLHF est responsable de la difference entre un LLM brut (qui complete du texte) et un chatbot utile (qui repond aux questions). C'est ce qui a rendu ChatGPT si different de GPT-3.

Alternatives et evolutions :

• DPO (Direct Preference Optimization) : plus simple, sans modele de recompense
• RLAIF : feedback genere par une autre IA plutot qu'un humain
• Constitutional AI : approche d'Anthropic combinant RLHF et principes ethiques

Ressources externes

Termes lies

Apprentissage par renforcement

Fine-tuning

Alignement de l'IA