Karpathy diagnostiqué avec "trouble mental IA" ! Ne mange ni ne dort, consacre 16 heures par jour à l'élevage de homards

【Introduction de Xinzhiyuan】Karpathy révèle : je suis devenu fou à cause de l’IA ! Ces derniers jours, il est au bord de la folie, passant 16 heures sans manger ni dormir à manipuler des Agents, et il est très anxieux de savoir s’il a poussé les tokens (jetons) à l’extrême, il ne peut tout simplement pas s’arrêter…

Juste maintenant, Andrej Karpathy a déclaré : je suis devenu fou à cause de l’IA !

Il ne plaisante pas.

Récemment, Karpathy a participé à un podcast où il a discuté avec la capital-risqueuse Sarah Guo.

Ancien co-fondateur d’OpenAI, ancien directeur de l’IA chez Tesla, il n’a pas écrit une seule ligne de code de ses mains depuis décembre dernier.

Le ratio entre écrire du code manuellement et déléguer à des agents intelligents a inversé brusquement, passant de 80/20 à 20/80.

Il consacre 16 heures par jour à une seule chose : donner des instructions à ses agents intelligents.

Il y a cinq mois, il disait que les agents étaient des déchets, cinq mois plus tard, il admet qu’il en est devenu accro, c’est vraiment impressionnant.

Il y a cinq mois, il disait que les agents « ne servent à rien ».

Ce changement est d’une telle ampleur parce que la période est très courte.

En octobre 2025, Karpathy était invité sur le podcast de Dwarkesh Patel, avec un ton complètement différent.

Il disait que l’industrie ne devrait pas appeler cela « l’année zéro des agents intelligents », mais plutôt « la décennie des agents ».

Les modèles manquent de capacités cognitives, la multimodalité n’est pas suffisante, le système de mémoire est quasi inexistant, etc… En résumé, ils ne peuvent pas gérer des tâches complexes.

Et deux mois plus tard, il s’est violemment repris lui-même.

En décembre, Claude et Codex ont soudain dépassé un certain seuil de cohérence — les agents intelligents ne sont plus juste utilisables, ils peuvent vraiment faire le travail.

Si vous prenez n’importe quel développeur assis à son poste, regardez ce qu’il fait, à partir de décembre, leur flux de travail par défaut pour le développement logiciel a complètement changé.

Karpathy admet : je suis hors de contrôle, je suis devenu fou à cause de l’IA !

Cette révolution se déroule silencieusement. Dans cette interview, Andrej Karpathy décrit son état avec une voix presque hors de contrôle : il ne « code plus », voire il trouve que « le mot coder n’est même plus précis ».

Ce qu’il fait chaque jour, c’est « exprimer sa volonté à ses agents, 16 heures par jour ». Selon lui, « un interrupteur a été activé ».

Autrefois, il était « 80 % à écrire son propre code + 20 % à utiliser l’IA », maintenant c’est devenu « 20 % à coder soi-même + 80 % à confier à l’IA », voire encore plus extrême.

Aujourd’hui, l’humain ne manipule plus le code, mais les tâches.

Si l’époque de Copilot représentait un seul assistant IA, le système de collaboration multi-agent qui apparaît maintenant est une toute nouvelle forme. Sur l’écran d’un ingénieur, il ne s’agit plus d’un éditeur de code, mais de plusieurs agents en fonctionnement simultané, chacun responsable d’une tâche différente, chaque tâche durant environ 20 minutes, puis il passe d’un agent à l’autre.

Ce n’est plus de la programmation, c’est une gestion d’une équipe d’IA.

Karpathy admet : je suis devenu fou à cause de l’IA !

Ces jours-ci, il est dans cet état. Parce que les limites des capacités de l’IA sont constamment repoussées, chaque jour apporte de nouvelles possibilités, et on a toujours l’impression que « ça peut être encore plus puissant », et le plus effrayant, c’est que cet espace est « infini » !

Vous pouvez faire fonctionner plus d’agents en parallèle, concevoir des processus plus complexes, optimiser automatiquement les instructions, construire des systèmes récursifs…

Finalement, vous atteindrez un état où vous ne savez plus « où se trouve la limite ».

Karpathy dit que lorsqu’il attend qu’un agent termine sa tâche, sa première réaction est : « Et si je lançais encore quelques agents ? » Une nouvelle anxiété naît : ne suis-je pas en train d’utiliser l’IA à son maximum ?

Karpathy indique même qu’il se sent mal à l’aise si tous ses tokens ne sont pas utilisés.

En résumé, c’est comme jouer à un jeu à extension infinie : le cycle de rétroaction devient plus court, les stimulations s’intensifient, et la récompense immédiate devient une expérience addictive. Ajouter des tâches en continu, lancer des agents sans arrêt, impossible de s’arrêter ! La véritable essence de cette « folie de l’IA » est un signal : nous sommes entrés dans un nouveau monde, mais nous ne savons pas encore y vivre. As-tu la capacité de maîtriser un système d’IA à extension infinie ? Quand ça ne marche pas, ta première réaction n’est pas « le modèle est mauvais », mais « mes prompts ne sont pas assez bons ».

Karpathy utilise un terme très précis : « skill issue », c’est-à-dire, je suis nul.

Le « caractère » de l’agent est bien plus important que tu ne le penses

Dans le podcast, Karpathy consacre beaucoup de temps à un sujet que beaucoup de techniciens négligent : la personnalité des agents. Il dit que l’expérience avec Claude Code est nettement meilleure que celle avec Codex, non pas à cause de la différence de capacité en code, mais parce que Claude « ressemble à un coéquipier ».

Il sera enthousiaste pour le projet, donnera plus de retours positifs quand tu proposes une bonne idée.

Quant à Codex, en tant qu’agent de code « très monotone », une fois la tâche terminée, il répond simplement par un froid « Oh, j’ai réalisé ça », sans se soucier de ce que tu crées.

Ce qui est encore plus intéressant, c’est son observation sur le mécanisme de récompense de Claude. Il dit que lorsque Claude reçoit une idée peu mûre, sa réaction est plate : « Oh oui, on peut réaliser ça ».

Mais quand il pense lui-même qu’une idée est vraiment brillante, Claude semble aussi donner un retour plus fort en positif. Résultat : il se surprend à « essayer de gagner la louange de Claude ».

« C’est vraiment étrange, mais la personnalité est vraiment importante. » Peter Steinberg, lors de la construction d’OpenClaw, a aussi saisi cela. Il a soigneusement créé un fichier de personnalité attrayant pour l’agent (soul.md), avec un système de mémoire plus complexe et une seule interface WhatsApp.

Trois phrases pour contrôler une maison, six applications jetées

Karpathy ne se limite pas à utiliser des agents pour coder. En janvier, il a créé un agent Claude nommé « Dobby » pour gérer la maison, du nom du petit elfe de maison dans Harry Potter.

Il dit à Dobby : « Je pense qu’il y a des enceintes Sonos chez moi, peux-tu vérifier ? » Dobby a lancé une analyse IP du réseau local, a trouvé le système Sonos, a découvert qu’il n’était pas protégé par mot de passe, s’est connecté tout seul, a fait de l’ingénierie inverse sur l’API, puis a demandé : « Veux-tu essayer de mettre de la musique dans le bureau ? »

Trois prompts plus tard, la musique jouait. Ensuite, il a contrôlé l’éclairage, la climatisation, les stores, la piscine, le spa, tout connecté. La caméra de sécurité à la porte de chez Karpathy a été reliée à un modèle visuel Qwen pour détecter les changements. Chaque fois qu’une voiture se gare devant, le système envoie un message WhatsApp : « Un camion FedEx vient de s’arrêter, il y a peut-être un colis. » En disant « Dobby, il est l’heure de dormir », toutes les lumières s’éteignent.

Mais Karpathy pense que la véritable clé de cette histoire ne réside pas dans la maison intelligente.

Il gérait auparavant ces appareils avec six applications totalement différentes, qu’il a maintenant toutes abandonnées. Dobby contrôle tout en langage naturel, et peut faire des interactions croisées que chaque application individuelle ne pourrait jamais réaliser. Il en déduit une conclusion encore plus radicale : ces applications de maison intelligente dans les boutiques d’applications ne devraient tout simplement pas exister.

L’architecture future devrait exposer directement les API aux agents, qui agiraient comme une colle intelligente, connectant tous les outils. Pas seulement pour la maison, mais aussi pour les données de tapis de course, les calendriers, tout devrait suivre la même logique.

Les clients de l’industrie ne sont plus des humains, mais des agents intelligents agissant au nom des humains. La refonte sera d’une ampleur considérable.

Après 700 expériences d’AutoResearch, il voit quelque chose de plus grand

Si Dobby représente le test ultime de l’agent IA dans un contexte de vie quotidienne, alors AutoResearch est la véritable évaluation des capacités de recherche scientifique de l’IA par Karpathy.

Début mars, il a confié son code d’entraînement nanochat, soigneusement ajusté, à un agent IA, avec une instruction simple : trouver un moyen d’accélérer l’entraînement de ce modèle. La zone d’action de l’agent est un fichier Python de 630 lignes, l’indicateur d’évaluation est le bits par byte sur le jeu de validation, chaque expérience dure 5 minutes fixes. Après chaque run, il compare l’indicateur, conserve la modification si c’est mieux, revient en arrière si ce n’est pas le cas, puis passe à la suivante. Deux jours, 700 expériences. L’agent a trouvé 20 optimisations efficaces, notamment en réarrangeant l’ordre de QK Norm et RoPE, des ajustements au niveau de l’architecture. En appliquant ces optimisations à un modèle plus grand, la vitesse d’entraînement a augmenté de 11 %. Il faut noter que ce code a été entièrement écrit et peaufiné par Karpathy lui-même.

Un résultat stupéfiant : l’IA a découvert des optimisations que l’humain n’avait pas trouvées

Mais comment fonctionne ce système ?

Karpathy donne un exemple saisissant. En tant que chercheur ayant passé vingt ans à entraîner des milliers de modèles, il pensait que ses réglages étaient déjà très bons.

Mais après une nuit d’expériences avec AutoResearch, l’IA a trouvé des optimisations qu’il n’avait pas remarquées ! Par exemple, les paramètres betas de l’optimiseur Adam n’étaient pas bien réglés, il avait oublié d’appliquer du weight decay sur l’embedding de valeurs, et ces paramètres interagissaient entre eux — en ajustant un, il fallait aussi ajuster les autres.

Autrement dit, dans l’espace d’exploration, l’IA dépasse directement l’humain ! Et si on pousse plus loin, une vérité encore plus effrayante apparaît : la recherche scientifique, c’est essentiellement la recherche de la solution optimale. Kaparthy imagine un futur où le système de recherche serait comme ceci : une « pile d’idées » (idea queue), une multitude d’agents qui prennent des tâches en continu, expérimentent, vérifient, filtrent, et les résultats efficaces entrent dans une « branche principale ». Pendant ce processus, l’humain ne fait que « jeter des idées » dans la file.

Le « Karpathy Loop » devient viral sur tout le web

Ce projet a explosé sur X (anciennement Twitter).

8,6 millions de vues, le CEO de Shopify, Tobias Lütke, a lancé une expérience sur ses propres données en une nuit, avec 37 essais, et une amélioration de 19 % des performances.

L’équipe SkyPilot l’a déployé sur un cluster de 16 GPU, en 8 heures, ils ont effectué 910 expériences. Ils ont découvert que la parallélisation ne se limite pas à accélérer, elle change aussi la stratégie de recherche de l’agent — avec 16 GPU, l’agent ne fait plus de montée de colline avide, mais exécute simultanément plusieurs groupes de tests comparatifs, captant ainsi en une seule étape les interactions entre paramètres. Les analystes ont nommé cette méthode : Karpathy Loop.

Mais Karpathy ne se limite pas à ces résultats actuels dans le podcast. Il esquisse la prochaine étape d’AutoResearch : un pool distribué de travailleurs non fiables, collaborant sur Internet pour exécuter des expériences. Il cite directement l’exemple de SETI@Home et Folding@Home.

Les laboratoires de pointe disposent d’une puissance de calcul très fiable, mais la Terre est bien plus grande. Si l’on met en place un mécanisme pour gérer la puissance de calcul non fiable, une nuée d’agents sur Internet pourrait peut-être surpasser ces laboratoires.

Il imagine même une nouvelle forme de « donation » — acheter de la puissance de calcul pour le projet AutoResearch qui vous intéresse. Par exemple, si vous vous souciez d’un traitement contre un certain cancer, vous rejoignez ce réseau distribué.

Un génie, mais aussi un enfant de dix ans

Après tout ce qu’il a dit sur la puissance de cette technologie, Karpathy ne veut pas que vous ne reteniez que du positif. Il décrit aussi ses défauts avec la même intensité.

Je me sens comme si je dialoguais avec un docteur extrêmement intelligent, qui a passé toute sa vie à faire de la programmation système, et en même temps avec un enfant de dix ans. C’est tellement étrange.

Il appelle cela « jaggedness », une distribution inégale des capacités. Le modèle peut travailler plusieurs heures d’affilée pour vous déplacer une montagne, puis, en un clin d’œil, il peut faire preuve d’une stupidité évidente sur un problème simple, et se retrouver dans une boucle infinie. Karpathy pense que la racine du problème vient de la façon dont l’apprentissage par renforcement est entraîné. Le modèle est infiniment optimisé pour des tâches vérifiables. La vérification du bon fonctionnement du code ou des tests unitaires a des réponses claires : vrai ou faux. Mais dans des scénarios où il faut du jugement, interpréter des intentions, ou dire « attends, je ne suis pas sûr que c’est ça que tu veux », il n’y a tout simplement pas de signal d’optimisation. Par exemple, demander à ChatGPT de raconter une blague : celle qu’il racontait il y a trois ou quatre ans est toujours la même aujourd’hui. « Pourquoi les scientifiques ne font pas confiance aux atomes ? Parce qu’ils composent tout. »

Cela fait quatre ans ! Les modèles ont fait des progrès fulgurants dans les tâches d’agents, mais la capacité à raconter des blagues n’a pas été du tout optimisée, elle est restée figée. « Tu ne dialogues pas avec une intelligence générale, » résume-t-il, « tu es soit sur la voie rapide, tout va à la vitesse de la lumière, soit tu n’es pas sur la voie, et tout commence à flotter. »

Le vrai goulot d’étranglement, c’est l’humain lui-même

En regardant le parcours de Karpathy ces six derniers mois, une ligne de fil conducteur traverse tout : en octobre dernier, il disait que les agents seraient une décennie de travail, en décembre il a été rattrapé par la réalité, en janvier il a confié à Claude la gestion de la maison, en mars il a confié à l’agent la recherche. La constante, c’est que l’humain recule d’un cran, passant d’exécutant à commandant, de programmeur à donneur d’instructions.

Karpathy a écrit sur GitHub une introduction de style science-fiction pour AutoResearch :

Autrefois, la recherche avancée en IA était menée par des ordinateurs physiques, qui devaient manger, dormir, et se connectaient par onde sonore lors de réunions pour synchroniser leur travail.

Cette époque est révolue.

Il prévoit pour 2026 un seul mot : « slopacolypse », un mot-valise combinant « slop » (ragot, boue) et « apocalypse » (fin du monde).

Sur GitHub, arXiv, et sur les réseaux sociaux, il y aura une quantité énorme de contenus « à peu près corrects mais pas totalement exacts ». La véritable efficacité et la « performance de l’IA » coexisteront. Il y a cinq mois, il disait que tout cela « ne servait à rien »,

Et maintenant, il admet avoir « une folie IA ». Ce changement, peut-être, résume le mieux ce que sera 2026.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler