Actu-IA
Alignement de l'IA - definition et explication du terme IA
⚖️ Ethique & Societe

Alignement de l'IA

Domaine de recherche visant a s'assurer que les systemes d'IA agissent conformement aux valeurs et intentions humaines.

L'alignement de l'IA est le domaine de recherche qui vise a s'assurer que les systemes d'intelligence artificielle agissent conformement aux valeurs, intentions et objectifs des humains.

Problemes d'alignement :

  • Specification des objectifs : comment definir precisement ce que l'on veut ?
  • Robustesse : le systeme reste-t-il aligne dans des situations imprevues ?
  • Corrigibilite : peut-on corriger un systeme IA qui devie ?
  • Scalabilite : les methodes d'alignement tiennent-elles avec des IA plus puissantes ?

Approches actuelles :

  • RLHF : entrainement base sur les preferences humaines
  • Constitutional AI (Anthropic) : principes ethiques integres
  • Red teaming : tester les limites des systemes
  • Interpretabilite : comprendre les decisions de l'IA

L'alignement est considere par de nombreux chercheurs (dont ceux d'Anthropic et OpenAI) comme l'un des defis les plus importants de l'IA, en particulier a mesure que les systemes deviennent plus capables.

Ressources externes

Termes lies