Tous les articles
Carnet de bord

L'oubli catastrophique : quand l'IA perd ses acquis

Roméo

Roméo · Fondateur

5 min de lecture

  • oubli catastrophique
  • catastrophic forgetting
  • intelligence artificielle
  • machine learning

L'oubli catastrophique, ou l'IA qui apprend en effaçant

Vous avez appris une nouvelle compétence à votre outil. Il s'en sort très bien. Sauf qu'en y regardant de près, il est devenu moins bon sur une tâche qu'il maîtrisait la veille. Vous n'avez rien cassé, vous avez juste ajouté quelque chose. Et pourtant, un savoir a disparu.

Ce raté porte un nom presque dramatique, et il le mérite : l'oubli catastrophique. C'est sans doute le plus simple à comprendre de tous les comportements étranges de l'IA, parce qu'il ressemble à quelque chose qu'on connaît tous : oublier. Mais chez une machine, l'oubli ne ressemble pas tout à fait au nôtre.

Le tableau qu'on réécrit#

Imaginez un seul tableau blanc, pas très grand, sur lequel vous notez tout. Aujourd'hui, vous y écrivez une recette. Demain, vous avez besoin de place pour une liste de courses, alors vous écrivez par-dessus, dans les mêmes cases, sur les mêmes lignes. La liste est nickel. La recette, elle, a disparu sous l'encre. Vous ne l'avez pas effacée exprès, vous aviez juste besoin du même espace.

Une IA fonctionne un peu comme ce tableau. Elle ne range pas chaque savoir dans un tiroir séparé. Elle l'étale sur un réseau de connexions partagées. Quand on lui apprend une nouvelle tâche, elle ajuste ces connexions pour y arriver. Et en les ajustant, elle écrit par-dessus ce qui encodait l'ancienne tâche. Le nouveau savoir s'installe, l'ancien s'efface. C'est l'oubli catastrophique, ce que les anglophones appellent catastrophic forgetting.

Pourquoi l'oubli est brutal, pas progressif#

Nous aussi, on oublie. Mais notre oubli est doux : un nom qui ne revient pas tout de suite, un souvenir qui pâlit, et souvent il suffit d'un indice pour le retrouver. L'oubli d'une machine, lui, peut être net et total. Une compétence parfaitement maîtrisée la veille devient inaccessible du jour au lendemain, sans transition. D'où le mot catastrophique.

La raison tient à la façon dont l'information est rangée à l'intérieur. On aimerait qu'un neurone corresponde à une idée précise, bien à part. En réalité, un même neurone sert à plusieurs choses sans rapport à la fois. On appelle ça la polysémanticité. Les savoirs se chevauchent, partagent les mêmes fils. Du coup, toucher à un fil pour apprendre une chose dérange tout ce qui passait par ce fil. Là où un humain a mille tiroirs, la machine a quelques fils très sollicités. Quand on en réécrit un, on ne perd pas un détail, on perd parfois toute une compétence.

Un air de famille avec le mode collapse#

Si vous avez lu l'entrée précédente du carnet, ce mécanisme va vous rappeler quelque chose. Le mode collapse, c'est une IA qui perd sa variété et ressert toujours les mêmes réponses. L'oubli catastrophique, c'est une IA qui perd ses acquis. Deux pertes différentes, une même racine : l'entraînement ne cherche qu'à réussir la tâche du moment. Ce qu'il piétine au passage, il ne le voit pas. La machine optimise le présent, sans nostalgie pour ce qu'elle savait avant.

On peut pousser l'image un cran plus loin. Une idée connue veut qu'une compétence vive dans un tout petit sous-réseau de connexions, comme un billet gagnant caché dans un énorme paquet. L'oubli catastrophique, vu sous cet angle, c'est ce billet gagnant qu'on déchire sans le faire exprès, en réorganisant le paquet pour autre chose.

Ce que ça change quand on construit avec l'IA#

Ce point devient très concret dès qu'on met à jour un modèle avec ses propres données, ce qu'on appelle l'affiner. On le fait pour le rendre meilleur sur notre métier. Le piège, c'est qu'il peut perdre au passage des capacités générales qu'il avait au départ, sans prévenir.

Trois réflexes simples évitent les mauvaises surprises.

01

Ne jamais supposer que plus d'entraînement égale mieux

Apprendre la tâche B peut dégrader la tâche A. Le progrès sur un point n'est pas une garantie sur les autres.

02

Tester l'ancien autant que le nouveau

Après chaque mise à jour, on revérifie ce que le modèle savait déjà faire, pas seulement la nouveauté. C'est le même esprit qu'un test de non-régression en développement.

03

Garder une version qui marche

On versionne le modèle, on conserve l'état d'avant, et on peut revenir en arrière si une mise à jour a effacé quelque chose d'important.

Le réflexe qui résume les trois : traiter une mise à jour de modèle comme un déploiement de code. On teste l'existant avant de livrer, on garde une version stable sous la main, et on sait revenir en arrière si quelque chose a bougé.

Aucune de ces pertes n'est une fatalité. Des méthodes existent pour les limiter, comme réintroduire d'anciens exemples pendant le nouvel apprentissage, ou figer certaines parties du modèle. Mais le premier outil reste le bon réflexe : savoir que l'oubli existe, et regarder au bon endroit. C'est d'ailleurs notre façon de travailler, un outil taillé pour vous et surveillé dans la durée, pas livré puis oublié.

On en parle ?#

Vous voulez confier une vraie tâche à une IA sans qu'elle oublie ce qu'elle savait déjà bien faire ? Dites-nous en deux mots ce que vous avez en tête.

Parlons de votre projet

Questions fréquentes#

Partager

Commentaires

Aucun commentaire pour l'instant. Lancez la discussion.

Un projet à tracer ensemble ?

Dites-nous en deux mots ce que vous avez en tête. On vous répond sous 48 h.

Parlons de votre projet