Le blog viral de Matt Shumer sur l'impact imminent de l'IA sur les travailleurs du savoir est basé sur des hypothèses erronées

L’influenceur en IA Matt Shumer a publié un blog viral sur X à propos du potentiel de l’IA à perturber, et finalement automatiser, presque tout le travail de connaissance qui a accumulé plus de 55 millions de vues au cours des dernières 24 heures. L’essai de 5000 mots de Shumer a certainement touché une corde sensible. Écrit sur un ton haletant, le blog est construit comme un avertissement à l’intention des amis et de la famille sur la façon dont leurs emplois vont être radicalement bouleversés. (Fortune a également publié une version adaptée du post de Shumer en tant que chronique.) « Le 5 février, deux grands laboratoires d’IA ont publié de nouveaux modèles le même jour : GPT-5.3 Codex d’OpenAI, et Opus 4.6 d’Anthropic », écrit-il. « Et quelque chose a cliqué. Pas comme un interrupteur… plutôt comme le moment où vous réalisez que l’eau monte autour de vous et atteint maintenant votre poitrine. » Shumer affirme que les programmeurs sont le canari dans la mine de charbon pour toutes les autres professions. « L’expérience que les travailleurs de la tech ont eue au cours de l’année passée, en voyant l’IA passer de « outil utile » à « faire mon travail mieux que moi », est l’expérience que tout le monde va bientôt vivre », écrit-il. « Droit, finance, médecine, comptabilité, conseil, rédaction, design, analyse, service client. Pas dans dix ans. Les personnes qui construisent ces systèmes disent entre un et cinq ans. Certains disent moins. Et vu ce que j’ai vu en seulement quelques mois, je pense que « moins » est plus probable. » Mais malgré sa viralité, l’affirmation de Shumer selon laquelle ce qui s’est passé avec la programmation est une préquelle à ce qui se passera dans d’autres domaines — et, de manière critique, que cela se produira dans seulement quelques années — me semble fausse. Et j’écris cela en tant que quelqu’un qui a écrit un livre (Maîtriser l’IA : Guide de survie pour notre avenir surpuissant) qui prédisait que l’IA transformerait massivement le travail de connaissance d’ici 2029, ce en quoi je crois toujours. Je ne pense simplement pas que l’automatisation complète des processus que nous commençons à voir avec la programmation arrivera aussi rapidement dans d’autres domaines que ce que prétend Shumer. Il peut avoir raison dans sa direction, mais le ton alarmiste de son message me paraît alarmiste, et basé en grande partie sur des hypothèses erronées. Vidéo recommandée * * * Tout le travail de connaissance n’est pas comme le développement logiciel ------------------------------------------------------- Shumer dit que la raison pour laquelle le code a été le domaine où les capacités autonomes ont eu le plus grand impact jusqu’à présent, c’est que les entreprises d’IA y ont consacré beaucoup d’attention. Elles l’ont fait, selon lui, parce que ces entreprises de modèles de pointe voient le développement logiciel autonome comme clé pour leur propre activité, permettant aux modèles d’IA d’aider à construire la prochaine génération de modèles d’IA. Dans ce domaine, la mise sur le marché des modèles semble porter ses fruits : le rythme auquel elles produisent de meilleurs modèles s’est considérablement accéléré au cours de l’année passée. Et OpenAI et Anthropic ont déclaré que le code derrière leurs modèles d’IA les plus récents a été en grande partie écrit par l’IA elle-même. Shumer affirme que, bien que la programmation soit un indicateur avancé, les mêmes gains de performance observés dans la programmation se retrouvent dans d’autres domaines, bien que parfois avec environ un an de retard par rapport à la progression dans la programmation. (Shumer n’offre pas d’explication convaincante sur pourquoi ce décalage pourrait exister, bien qu’il laisse entendre que c’est simplement parce que les entreprises d’IA optimisent d’abord pour la programmation, puis finissent par améliorer les modèles dans d’autres domaines.) Mais ce que Shumer ne dit pas, c’est qu’une autre raison pour laquelle la progression dans l’automatisation du développement logiciel a été plus rapide que dans d’autres domaines, c’est que la programmation possède des métriques quantitatives de qualité qui n’existent tout simplement pas ailleurs. En programmation, si le code est vraiment mauvais, il ne compile tout simplement pas. Un code inadéquat peut aussi échouer à divers tests unitaires que l’agent d’IA en programmation peut effectuer. (Shumer ne mentionne pas que les agents de programmation d’aujourd’hui mentent parfois sur la réalisation de tests unitaires — ce qui est une des nombreuses raisons pour lesquelles le développement logiciel automatisé n’est pas infaillible.) De nombreux développeurs disent que le code que l’IA écrit est souvent suffisamment correct pour passer ces tests de base, mais reste encore peu performant : inefficace, peu élégant, et surtout, peu sécurisé, ce qui expose une organisation qui l’utilise à des risques en cybersécurité. Mais en programmation, il existe encore des moyens de construire des agents d’IA autonomes pour traiter certains de ces problèmes. Le modèle peut créer des sous-agents qui vérifient le code qu’il a écrit pour détecter des vulnérabilités en cybersécurité ou critiquent l’efficacité du code. Parce que le code logiciel peut être testé dans des environnements virtuels, il existe de nombreuses façons d’automatiser le processus d’apprentissage par renforcement — où un agent apprend par expérience à maximiser une récompense, comme des points dans un jeu — que les entreprises d’IA utilisent pour façonner le comportement des modèles après leur entraînement initial. Cela signifie que le raffinement des agents de programmation peut être effectué de manière automatisée à grande échelle. L’évaluation de la qualité dans de nombreux autres domaines du travail de connaissance est bien plus difficile. Il n’existe pas de compilateurs pour le droit, pas de tests unitaires pour un plan de traitement médical, pas de métrique définitive pour juger de la qualité d’une campagne marketing avant qu’elle ne soit testée sur des consommateurs. Il est beaucoup plus difficile dans d’autres domaines de recueillir suffisamment de données auprès d’experts professionnels sur ce à quoi ressemble le « bon ». Les entreprises d’IA réalisent qu’elles ont un problème pour collecter ce type de données. C’est pourquoi elles paient désormais des millions à des entreprises comme Mercor, qui dépensent à leur tour beaucoup d’argent pour recruter comptables, professionnels de la finance, avocats et médecins afin de fournir des retours sur les résultats de l’IA, pour mieux entraîner leurs modèles. Il est vrai qu’il existe des benchmarks montrant que les modèles d’IA les plus récents progressent rapidement dans des tâches professionnelles en dehors de la programmation. L’un des meilleurs est le benchmark GDPVal d’OpenAI. Il montre que les modèles de pointe peuvent atteindre une parité avec des experts humains dans une gamme de tâches professionnelles, allant du travail juridique complexe à la fabrication en passant par la santé. Jusqu’à présent, les résultats ne sont pas encore disponibles pour les modèles qu’OpenAI et Anthropic ont sortis la semaine dernière. Mais pour leurs prédécesseurs, Claude Opus 4.5 et GPT-5.2, ces modèles atteignent la parité avec des experts humains dans une diversité de tâches, et surpassent ces derniers dans de nombreux domaines. Cela ne suggérerait-il pas que Shumer a raison ? Eh bien, pas si vite. Il s’avère que dans de nombreuses professions, ce que « bon » signifie est très subjectif. Les experts humains n’ont été d’accord que dans environ 71 % des cas sur leur évaluation des résultats de l’IA. Le système de notation automatisé utilisé par OpenAI pour GDPVal présente encore plus de variance, avec un accord sur les évaluations seulement 66 % du temps. Donc, ces chiffres en gros titre sur la performance de l’IA dans les tâches professionnelles pourraient comporter une large marge d’erreur. L’entreprise a besoin de fiabilité, de gouvernance et d’auditabilité ---------------------------------------------------------- Cette variance est l’une des raisons pour lesquelles les entreprises hésitent à déployer des flux de travail entièrement automatisés. Ce n’est pas seulement que la sortie du modèle d’IA pourrait être erronée. C’est que, comme le suggère le benchmark GDPVal, l’équivalent d’un test unitaire automatisé dans de nombreux contextes professionnels pourrait produire un résultat erroné un tiers du temps. La plupart des entreprises ne peuvent pas tolérer la possibilité que du travail de mauvaise qualité soit livré dans un tiers des cas. Les risques sont tout simplement trop grands. Parfois, le risque peut être simplement réputationnel. D’autres fois, cela pourrait signifier une perte immédiate de revenus. Mais dans de nombreuses tâches professionnelles, les conséquences d’une décision erronée peuvent être encore plus graves : sanctions professionnelles, poursuites, perte de licences, perte d’assurance, et même, risque de blessures physiques ou de décès — parfois pour un grand nombre de personnes. De plus, tenter de maintenir un humain en boucle pour revoir les résultats automatisés est problématique. Les modèles d’IA d’aujourd’hui s’améliorent réellement. Les hallucinations se produisent moins fréquemment. Mais cela ne fait qu’aggraver le problème. À mesure que les erreurs générées par l’IA deviennent moins fréquentes, les relecteurs humains deviennent complaisants. Les erreurs de l’IA deviennent plus difficiles à repérer. L’IA est excellente pour être confiante à tort et pour présenter des résultats impeccables en apparence mais sans substance. Cela contourne certains critères proxy que les humains utilisent pour calibrer leur niveau de vigilance. Les modèles d’IA échouent souvent de manières qui leur sont étrangères, ce qui rend la prévention des erreurs générées par l’IA encore plus difficile. Pour toutes ces raisons, tant que l’équivalent des tests unitaires automatisés du développement logiciel ne sera pas développé pour des domaines plus professionnels, déployer des flux de travail automatisés par l’IA dans de nombreux contextes du travail de connaissance sera trop risqué pour la plupart des entreprises. L’IA restera un assistant ou un copilote pour les travailleurs de la connaissance, plutôt que leur travail ne soit entièrement automatisé. Il existe aussi d’autres raisons pour lesquelles l’automatisation observée par certains développeurs de logiciels est peu probable dans d’autres catégories de travail de connaissance. Dans de nombreux cas, les entreprises ne peuvent pas donner aux agents d’IA accès aux outils et systèmes de données dont ils ont besoin pour effectuer des flux de travail automatisés. Il est notable que les plus grands promoteurs de l’automatisation par l’IA jusqu’à présent sont des développeurs qui travaillent seuls ou pour des startups nativement IA. Ces programmeurs sont souvent libérés des systèmes hérités et de la dette technique, et n’ont souvent pas beaucoup de systèmes de gouvernance et de conformité à naviguer. Les grandes organisations manquent souvent actuellement de moyens pour relier sources de données et outils logiciels. Dans d’autres cas, les préoccupations concernant la sécurité et la gouvernance font que de grandes entreprises, notamment dans des secteurs réglementés comme la banque, la finance, le droit et la santé, refusent d’automatiser sans garanties solides que les résultats seront fiables et qu’il existe un processus pour surveiller, gouverner et auditer ces résultats. Les systèmes pour faire cela sont encore primitifs. Jusqu’à ce qu’ils deviennent beaucoup plus matures et robustes, ne vous attendez pas à ce que les entreprises automatisent complètement la production de résultats critiques ou réglementés. Les critiques disent que Shumer n’est pas honnête sur les défaillances des LLM --------------------------------------------------- Je ne suis pas le seul à avoir trouvé l’analyse de Shumer erronée. Gary Marcus, professeur émérite en sciences cognitives à l’Université de New York, qui est devenu l’un des principaux sceptiques des modèles de langage de grande taille actuels, m’a dit que le post de Shumer sur X était une « hype instrumentalisée ». Et il a souligné des problèmes même dans les arguments de Shumer concernant le développement logiciel automatisé. « Il ne donne aucune donnée concrète pour soutenir cette affirmation selon laquelle les derniers systèmes de codage peuvent écrire des applications complexes entières sans faire d’erreurs », a déclaré Marcus. Il souligne que Shumer déforme un benchmark bien connu de l’organisation d’évaluation de l’IA METR, qui tente de mesurer les capacités de codage autonome des modèles d’IA, et qui suggère que les capacités de l’IA doublent tous les sept mois. Marcus note que Shumer ne mentionne pas que le benchmark a deux seuils de précision, 50 % et 80 %. Mais la plupart des entreprises ne s’intéressent pas à un système qui échoue la moitié du temps, ou même un qui échoue une fois sur cinq. « Aucun système d’IA ne peut faire de manière fiable chaque tâche de cinq heures que les humains peuvent faire sans erreur, ou même presque, mais on ne le saurait pas en lisant le blog de Shumer, qui ignore en grande partie toutes les hallucinations et erreurs stupides qui sont si courantes dans l’expérience quotidienne », dit Marcus. Il a aussi noté que Shumer n’a pas cité de recherches récentes du Caltech et de Stanford qui décrivent une large gamme d’erreurs de raisonnement chez des modèles d’IA avancés. Et il a souligné que Shumer a déjà été pris auparavant à faire des affirmations exagérées sur les capacités d’un modèle d’IA qu’il a entraîné. « Il aime vendre du gros. Cela ne veut pas dire qu’on doit le prendre au sérieux », a déclaré Marcus. D’autres critiques du blog de Shumer soulignent que son analyse économique est ahistorique. Chaque révolution technologique a, à long terme, créé plus d’emplois qu’elle n’en a éliminés. Connor Boyack, président de l’Institut Libertas, un groupe de réflexion en politique dans l’Utah, a écrit tout un contre-article argumentant cela. Donc, oui, l’IA pourrait bien être prête à transformer le travail. Mais le type d’automatisation complète des tâches que certains développeurs d’IA ont commencé à observer — pour certaines tâches ? Pour la plupart des travailleurs de la connaissance, surtout ceux intégrés dans de grandes organisations, cela prendra beaucoup plus de temps que ce que laisse entendre Shumer. Rejoignez-nous au Sommet sur l’Innovation en Milieu de Travail de Fortune du 19 au 20 mai 2026, à Atlanta. La nouvelle ère de l’innovation au travail est là — et le vieux manuel est en train d’être réécrit. Lors de cet événement exclusif et dynamique, les leaders les plus innovants du monde se réuniront pour explorer comment l’IA, l’humanité et la stratégie convergent pour redéfinir, encore une fois, l’avenir du travail. Inscrivez-vous dès maintenant.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)