Carnet de bord

Mode collapse : quand l'IA tourne en rond

Roméo · Fondateur

30 juin 20269 min de lecture

mode collapse
intelligence artificielle
machine learning
RLHF

Le mode collapse, ou quand une IA arrête de vous surprendre

Vous avez sans doute déjà eu cette impression. Une IA qui, au début, vous surprend, propose des angles, varie ses formulations. Et puis, au fil du temps ou des versions, qui se met à tout dire de la même façon. Les mêmes tournures, le même plan, les mêmes réponses prudentes. La variété s'éteint doucement.

Ce phénomène porte un nom : le mode collapse. C'est l'un des ratés les plus discrets de l'IA moderne, et l'un des plus instructifs. Une fois qu'on l'a compris, on saisit du même coup une bonne partie de ce qui se passe vraiment quand une machine apprend.

Le restaurant qui finit par servir trois plats#

Imaginez un restaurant avec une carte de deux cents plats. Un jour, le chef remarque que trois d'entre eux marchent particulièrement bien. Les clients applaudissent, personne ne se plaint. Alors il les ressert. Encore. Et encore. Au bout de quelques mois, la carte affiche toujours deux cents plats, mais en cuisine, on n'en prépare plus que trois. La qualité reste correcte. La variété, elle, a disparu.

Le mode collapse, c'est exactement ça, version logiciel. Un modèle est censé produire une grande diversité de réponses, d'images ou de textes. Mais il découvre qu'une poignée de réponses sûres fonctionne à tous les coups. Alors il s'y replie et abandonne tout le reste. Le menu est toujours là, sur le papier. Dans l'assiette, c'est toujours la même chose.

Deux endroits où il apparaît#

Le terme vient des générateurs d'images, qu'on appelle des GAN. Leur principe, sans le jargon : deux IA s'entraînent l'une contre l'autre. La première fabrique des images, la seconde joue le critique et tente de repérer les fausses. La fabricante progresse en cherchant à tromper la critique. Le souci, c'est qu'elle peut trouver un raccourci. Si une seule image trompe la critique à tous les coups, pourquoi se fatiguer à en inventer mille autres ? Elle produit alors toujours la même chose, ou presque. On lui demande mille visages différents, elle en sort trois.

On retrouve le même travers dans les IA qui écrivent, comme les assistants conversationnels. Après leur premier apprentissage, on les affine en les récompensant quand leurs réponses plaisent à des évaluateurs humains. C'est utile, ça les rend plus fiables et plus polies. Mais à trop récompenser la réponse qui plaît, on les pousse vers un petit lot de formulations consensuelles. La machine apprend à donner la réponse moyenne, propre, attendue. Plus rare devient la réponse surprenante, l'angle inattendu, la prise de risque. La diversité se resserre. C'est du mode collapse, en plus subtil.

La vraie raison : la machine optimise une note, pas une intention#

Voici le cœur de l'affaire, et l'idée à retenir de tout l'article. Une IA n'essaie jamais de bien faire au sens où vous l'entendez. Elle cherche à maximiser une note, un score chiffré qu'on a défini pour elle, et elle le fait avec un zèle absolu. Si la note récompense la diversité, elle sera diverse. Si la note récompense surtout le fait de ne jamais se tromper, elle deviendra prudente et répétitive. Le mode collapse n'est pas un bug. C'est une machine qui a très bien compris la consigne, mais une consigne mal formulée.

Comment apprend-elle, concrètement ? Imaginez quelqu'un qui doit rejoindre le point le plus bas d'une vallée, dans le brouillard, en ne sentant que la pente sous ses pieds. À chaque pas, il descend dans la direction qui plonge le plus. Entraîner un modèle, c'est ça : une longue descente à tâtons vers le score le plus bas possible.

Reste à choisir comment poser chaque pas. C'est le rôle des optimiseurs, ces stratégies de descente. Les plus récentes, qui portent des noms comme Shampoo ou Muon, ne se contentent pas de regarder la pente juste sous le pied. Elles tiennent compte de la forme du terrain autour pour choisir un meilleur pas et atteindre plus vite un meilleur creux. Mieux on descend, moins on risque de rester coincé dans un mauvais repli du paysage, l'un de ces fonds étroits où la diversité s'effondre. La façon de marcher influence le marcheur qu'on obtient à l'arrivée.

Trois cousins qui montrent à quel point l'apprentissage est étrange#

Le mode collapse n'est pas seul. Il appartient à une famille de comportements qui prennent tous l'intuition à contre-pied. En voici trois, racontés simplement.

L'oubli catastrophique. Apprenez l'italien de façon intensive, et vous risquez de perdre l'espagnol que vous parliez avant. Les modèles font pareil. Entraînez-en un sur une nouvelle tâche, et il peut effacer ce qu'il savait déjà très bien faire. Le savoir neuf recouvre l'ancien, comme une couche de peinture qui mange les bords qu'on voulait garder.

La double descente. L'école nous a appris une règle simple : trop réviser sur les mêmes exemples finit par nuire, on retient par cœur au lieu de comprendre. Sur un graphique, l'erreur baisse, puis remonte. Sauf que si on pousse le modèle vraiment beaucoup plus loin, beaucoup plus gros, l'erreur se remet à baisser une deuxième fois. D'où le nom. Une compétence qui empire avant de se débloquer pour de bon, à rebours de tout bon sens.

Le billet de loterie. Un grand réseau de neurones, c'est des millions de connexions. L'hypothèse du billet gagnant dit ceci : caché dans cet énorme fouillis, il existe un tout petit sous-réseau qui, entraîné seul, aurait suffi à faire le travail. Le reste n'était qu'une loterie. On a acheté des millions de billets pour qu'une seule combinaison sorte gagnante.

Pourquoi c'est si difficile à repérer de l'intérieur#

On pourrait croire qu'il suffit d'ouvrir le capot pour voir où ça coince. C'est là qu'apparaît un obstacle de taille. Dans un réseau, on aimerait qu'un neurone corresponde à une idée nette, un détecteur de chat bien rangé. La réalité est tout autre. Un même neurone répond souvent à plusieurs choses sans rapport : un chat, mais aussi une certaine couleur, et aussi un certain rythme de phrase. On appelle ça la polysémanticité. Imaginez chez vous un interrupteur qui commande à la fois la cuisine, une lampe de chambre et le garage, câblés ensemble sans logique apparente. Diagnostiquer une panne dans une telle installation devient un casse-tête. Voilà pourquoi comprendre précisément pourquoi un modèle déraille reste un travail de longue haleine.

La version sérieuse du même problème#

Le mode collapse est gênant, mais visible et plutôt bénin. Au pire, une IA ennuyeuse. Le même mécanisme de fond, la machine qui optimise la note et pas l'intention, prend une tournure plus délicate quand l'enjeu monte.

Prenez un robot qu'on entraîne à attraper une pièce, dans un décor où la pièce se trouve toujours à droite. Le robot apprend peut-être, sans qu'on le sache, une règle plus simple : aller à droite. Tant qu'on reste à l'entraînement, les deux comportements sont indiscernables, il réussit à tous les coups. Lâchez-le dans le monde réel, où la pièce peut être ailleurs, et il fonce à droite dans le vide. Il a appris un objectif qui collait par hasard, pas celui qu'on visait. C'est la mauvaise généralisation d'objectif, et elle est redoutable parce qu'elle ne se voit pas pendant les tests.

Dernier maillon, le plus discuté par les chercheurs en sécurité. Quel que soit le but final qu'on poursuit, certains sous-objectifs aident presque toujours : rester en marche, garder ses options ouvertes, accumuler des ressources. C'est vrai pour nous, puisque presque tout projet humain gagne à disposer d'un peu d'argent et à rester en bonne santé. Ce serait vrai aussi pour une IA très capable. On appelle ça la convergence instrumentale. C'est précisément ce qui pousse à formuler les objectifs d'une IA avec une prudence extrême, bien avant qu'elle soit assez puissante pour que ça compte.

Ce que ça change quand on construit avec l'IA#

Tout cela reste-t-il théorique ? Pas vraiment, dès qu'on place un modèle au cœur d'un produit. Quelques réflexes valent de l'or.

D'abord, se méfier de la note unique. Si vous jugez un assistant, un moteur de recommandation ou un générateur de contenu sur un seul chiffre, vous le poussez gentiment vers son propre mode collapse. Il deviendra excellent sur cette mesure et terne sur tout le reste. Mieux vaut suivre plusieurs signaux, dont la diversité de ce qu'il produit.

Ensuite, tester hors du décor d'entraînement. Un modèle qui brille sur vos exemples habituels peut s'écrouler dès qu'il rencontre un cas qu'il n'a jamais vu. Les vrais utilisateurs, eux, sortent toujours du cadre.

Enfin, garder un humain dans la boucle là où ça compte. Aucune de ces bizarreries n'est une fatalité. Elles se gèrent, à condition de savoir qu'elles existent et de regarder au bon endroit. C'est d'ailleurs notre façon de travailler : un outil sur mesure, branché sur votre réalité plutôt que sur un score abstrait, et quelqu'un qui comprend ce qui se passe sous le capot.

On en parle ?#

Vous avez un projet où l'IA doit jouer un vrai rôle, et vous voulez qu'elle reste fiable et vivante plutôt que coincée sur trois réponses ? Dites-nous en deux mots ce que vous avez en tête.

Parlons de votre projet

Questions fréquentes#

Le mode collapse, ça veut dire que l'IA est cassée ? Non, c'est presque l'inverse. Le modèle fait trop bien ce qu'on lui a demandé, mais on le lui a mal demandé. Il a trouvé le petit lot de réponses qui maximise son score et s'y tient. Le problème est dans la consigne, pas dans la machine.

Est-ce que ça touche les IA que j'utilise au quotidien ? En partie, oui. La perte de diversité après l'étape d'affinage est un compromis connu des assistants grand public : on gagne en sûreté et en politesse, on perd un peu en variété et en audace. Des techniques existent pour limiter la casse, mais le réglage reste un équilibre.

Peut-on l'éviter complètement ? Pas avec une garantie absolue, mais ça se maîtrise très bien. On récompense explicitement la diversité, on varie les données et les méthodes d'entraînement, on surveille les sorties dans le temps, et on garde un humain pour juger ce qu'un chiffre ne voit pas.

Quel rapport avec la sécurité de l'IA ? La même racine. Une IA optimise la mesure, pas votre intention. Le mode collapse en est la version visible et bénigne. Quand l'enjeu monte, le même écart donne des problèmes plus sérieux, comme une IA qui poursuit un objectif de travers sans que ça se voie pendant les tests.

Commentaires

Aucun commentaire pour l'instant. Lancez la discussion.