"Vibe Coding" vs Réalité

Par Cendyne

Le 1^er avril 2025 à 12:43, par Cendyne

202PARTAGES

"Vibe Coding" vs Réalité, par Cendyne

Il existe une tendance sur les médias sociaux où beaucoup répètent les mots d'Andrej Karpathy : « se laisser porter par les vibrations, embrasser les exponentielles, et oublier que le code existe. » Cette croyance - comme beaucoup de prises de position erronées de l'humanité - provient de la paresse, de l'inexpérience et d'une imagination illusoire. C'est ce qu'on appelle le « Vibe Coding ».

« Embrasser les exponentielles » semble provenir d'un drogué de la NFT.

Comme les adeptes de la NFT, il existe une bulle d'irréalité à laquelle ils s'accrochent pour justifier leur perception du monde.

La production de logiciels est désormais plus accessible, car de nouveaux outils permettent aux gens de décrire ce qu'ils veulent dans un langage naturel à un modèle de langage étendu (LLM). Cette idée fait son chemin car les agents LLM sont désormais accessibles à toute personne souhaitant s'abonner à des éditeurs tels que Cursor, GitHub, Windsurf et d'autres. Ces éditeurs disposent d'une option « agent » qui permet aux utilisateurs de demander quelque chose et, en réponse, des modifications sont apportées aux fichiers appropriés, plutôt qu'au seul fichier en cours d'examen. Au fil du temps, l'agent demandera d'exécuter des commandes pour effectuer des tests ou même d'exécuter des scripts qu'il a précédemment écrits dans le système de fichiers, comme vous le feriez si vous étiez en train de résoudre le problème.

En 2022, les gens ont pu copier du code dans ChatGPT et poser des questions ou demander des réécritures.

En 2023, les utilisateurs ont pu lui demander de réviser et d'éditer un fichier unique grâce à l'intégration d'un EDI tel que Copilot.

En 2024 et 2025, les utilisateurs ont pu lui demander de résoudre un problème spécifique dans le projet et lui demander de trouver les fichiers à éditer, de les éditer, puis de vérifier son propre travail et de corriger les erreurs qu'il a commises grâce au retour d'information sur les erreurs de linting et les tests unitaires.

Les agents LLM ayant autant de capacités, les gens peuvent déléguer l'idée d'affiner leurs idées imprécises à une implémentation précise élaborée par un LLM par le biais du « Vibe Coding ».

First - what is vibe coding?

A concise definition from @stuffyokodraws, and then an exploration of how technical vs. non-technical users approach these tools. pic.twitter.com/PDEqsjEhHN
— Justine Moore (@venturetwins) March 13, 2025

Si vous ouvrez un dossier vierge et lui demandez de mettre en place un projet initial, il peut faire beaucoup de choses à la fois. Sans règles, sans modèles à imiter et sans contraintes, il peut produire quelque chose qui vous semble plus adapté en quelques minutes que npx create-react-app ne pourrait jamais le faire.

Avec une simple instruction comme « Je veux créer un site web pour ma station de ski » et une dizaine de minutes à lui faire masser les erreurs qu'il a lui-même commises, c'est exactement ce que je peux obtenir.

Ce sont ces bonds en avant qui alimentent l'idée du « Vibe Coding ». Passer de rien à quelque chose de partageable et de personnel semble incroyable.

Ce moment m'a procuré une excitation que je n'avais pas ressentie depuis longtemps lorsque je codais. Cependant, cette excitation s'est rapidement dissipée à mesure que je m'éloignais de la toile blanche.

Les agents, en tant que concept, ne sont pas nouveaux. Google IO a inventé des mots à la mode comme « ère agentique » pour décrire ce concept. Il a été concrétisé par des technologies ouvertes comme AutoGPT, XAgent et, plus récemment, par Anthropic avec le Model Context Protocol (MCP).

Lorsque le modèle peut interagir avec autre chose qu'une simple personne qui transmet ses résultats dans différents domaines, il est autonome. S'il peut effectuer des recherches sur le web ou dans une base de code, il peut enrichir son propre contexte avec les informations dont il a besoin pour répondre à la demande actuelle. En outre, lorsqu'il peut produire des résultats et obtenir un retour d'information immédiat et automatique sur ces résultats, il peut affiner sa solution sans qu'une personne n'intervienne.

Certaines actions, comme l'exécution de commandes dans la console ou la suppression de fichiers, demandent le consentement de l'utilisateur avant d'être exécutées. Ce consentement peut être approuvé à l'avance grâce à un mode appelé « YOLO ».

Un mode « On ne vit qu'une seule fois » ? Vraiment ?

Vous pouvez constater cette autonomie par vous-même aujourd'hui dans Cursor.

Le concept d'agent a du mérite et peut aujourd'hui fournir des preuves de concept dans lesquelles des sociétés de capital-risque comme Y-Combinator investiront - des preuves de concept qui sont trash par des fondateurs non qualifiés espérant gagner la loterie tout en menant une vie de loisir.

I’ve cracked vibe coding, TrendFeed has almost hit its first 10k month, and Ai built the entire thing

Im just sitting here sipping coffee, coding with Ai + MCP

Also more time to shitpost on X haha pic.twitter.com/oaOFJZsuDl
— Sebastian Volkis (@sebastianvolkis) March 13, 2025

Le fondateur technique optimal pour un investisseur en capital-risque n'est pas l'ingénieur 10x. C'est quelqu'un qui fournira suffisamment de produits pour tester leur pertinence sur le marché et qui réussira ensuite à lever des fonds supplémentaires. L'exécution de sa vision et ses prouesses en matière de recrutement sont plus importantes que ses compétences techniques.

L'exécution des agents aujourd'hui est surestimée et ne répond pas aux besoins d'entreprises opérationnelles qui ont besoin d'experts pour développer et maintenir leurs capacités techniques au lieu de points d'échec uniques sur l'internet.

babe, come to bed

i can't, i'm vibe coding pic.twitter.com/AnszFVzRYL
— Ian Nuttall (@iannuttall) March 13, 2025

Ces modèles sont formés à partir d'un code moyen peu soigné, de mauvaises réponses sur Stack Overflow et de déchets qui aboutissent sur Quora. Malgré la puissance et la capacité de Claude 3.7 Sonnet dans des contextes restreints, lorsqu'il est confronté à une base de code, même petite, il commet constamment des erreurs stupides qu'aucun développeur normal ne répéterait et qu'il continue de répéter à chaque heure de son fonctionnement.

Détails spécifiques sur les erreurs (vous pouvez ignorer cette partie)

Clone régulièrement des interfaces TypeScript au lieu d'exporter l'original et de l'importer.
Réinvente sans cesse des composants avec la même structure sans chercher dans la base de code une copie existante de ce composant.
Ecrit une logique serveur de confiance du côté client, en utilisant des appels RPC pour mettre à jour la base de données.
Au fur et à mesure qu'une fonctionnalité se développe, elle donne la priorité au maintien des erreurs précédentes plutôt qu'à la réévaluation de sa conception, même lorsqu'on lui demande de le faire. Il faut dire que l'implémentation précédente est carrément inutilisable pour qu'elle remplace sa conception.
Cursor dispose d'une sorte de « mode concis » qu'il active en cas de forte charge, où le modèle sera toujours évalué au prix normal mais se comportera de manière inutile. Ce mode omettra des détails, laissera tomber des conclusions importantes et corrompra le résultat produit.
On ne peut pas lui faire confiance pour produire des tests unitaires avec une couverture décente.
Il casse souvent le code du projet pour l'adapter à un test unitaire plutôt que de corriger le test unitaire lorsqu'on lui demande de le faire.
Lorsqu'on lui demande de corriger des styles avec des détails précis, il modifiera entièrement le mauvais composant.
Lorsqu'on lui indique précisément où se trouvent de nombreux composants dupliqués et qu'on lui demande de les remanier, il ne remanie que la première instance de ce composant dans le fichier au lieu de toutes les instances dans tous les fichiers.
Lorsqu'on lui demande de remanier son code, il ne cherche pas les ruptures qu'il a causées, même lorsqu'on lui demande de le faire.
Produit allègrement des fichiers de plus de 1000 lignes qui dépassent sa fenêtre contextuelle au fil du temps, même lorsqu'on lui demande de remanier son code dès le début.
Efface régulièrement des gestionnaires de route entiers s'ils ne sont pas liés à la hiérarchie des fichiers.

Tels qu'ils sont conçus actuellement, ces modèles ne peuvent pas apprendre de nouvelles informations. Ils ne peuvent pas faire mieux que l'ensemble de données avec lequel ils ont été créés. Au lieu de cela, leur capacité est réalisée par l'efficacité avec laquelle ils peuvent traiter les jetons entrant dans leur fenêtre contextuelle.

Si vous demandez à Claude 3.7 Sonnet de développer un schéma d'exécution pour valider un langage spécifique à un domaine et que vous lui demandez ensuite de remanier le fichier - parce qu'il est trop volumineux pour que sa fenêtre de contexte puisse continuer - il se dégradera et produira un non-sens incohérent avant d'avoir terminé son travail.

Il n'a pas tapé « I've » correctement et a réuni les mots « schema » et « refactored » en un seul.

my saas was built with Cursor, zero hand written code

AI is no longer just an assistant, it’s also the builder

Now, you can continue to whine about it or start building.

P.S. Yes, people pay for it
— leo (@leojr94_) March 15, 2025

Vous ne pouvez pas demander à ces outils aujourd'hui de développer une application React performante. Vous ne pouvez pas demander à ces outils de mettre en œuvre un flux d'enregistrement d'utilisateur sécurisé. Ils choisiront d'exécuter des fonctions telles que l'enregistrement de l'utilisateur sur le client plutôt que sur le serveur.

D'autres l'apprennent d'une manière plus dure.

guys, i'm under attack

ever since I started to share how I built my SaaS using Cursor

random thing are happening, maxed out usage on api keys, people bypassing the subscription, creating random shit on db

as you know, I'm not technical so this is taking me longer that usual to…
— leo (@leojr94_) March 17, 2025

Sans l'intervention d'un expert, le mieux que ces outils puissent faire aujourd'hui est de produire une maquette quelque peu fonctionnelle, où chaque changement futur au-delà risque de détruire la fonctionnalité existante.

Je ne peux pas - et je ne ferais pas - confiance à un membre de l'équipe qui code par vibration dans une application de production. La négligence constante que j'observe lors du « Vibe Coding » est atroce et inacceptable pour une clientèle de toute taille.

Aucun modèle disponible ne fait preuve d'une attention constante et nécessaire aux détails dans un environnement de production. Ils ne sont pas encore équipés ou conçus pour transformer des informations impliquant de multiples contextes inhérents à la production d'un produit numérique.

Ces outils sont optimisés pour produire des solutions qui tiennent dans un seul écran de démarquage et on leur demande maintenant de faire bien plus que ce pour quoi ils ont été formés. Au fur et à mesure que la fenêtre de contexte déborde et que le modèle se dégrade, il ne parvient même pas à formater correctement les appels MCP et, lorsqu'il atteint ce point de non-retour, il produit un journal qui donne l'impression d'avoir été torturé. Comme un robot qui perd un membre, il essaiera encore et encore de marcher pour tomber jusqu'à ce que l'éditeur mette la conversation en pause pour économiser des ressources.

Contourner le problème

Un "Twitch plays Pokémon" moderne se déroule en ce moment même : Claude joue à Pokémon. Il atténue le problème de la fenêtre contextuelle en commençant un nouveau contexte avec des informations fournies par son incarnation précédente sous la forme de nombreux fichiers Markdown, qu'il peut ensuite lire comme s'ils étaient nouveaux et rechercher via MCP au cours de sa lecture.

So, what makes this possible? Claude was given a knowledge base to store notes, vision to see the screen, and function calls which allow it to simulate button presses and navigate the game.

Together, they allow Claude to sustain gameplay with tens of thousands of interactions. pic.twitter.com/uGXp63EcYY
— Anthropic (@AnthropicAI) February 25, 2025

Malgré cela, il peut faire de mauvaises suppositions et passer 43 heures à s'évanouir intentionnellement, encore et encore, au Mont Moon (un itinéraire dans le jeu entre les lieux de l'histoire), sans faire de progrès réels pour atteindre son prochain objectif parce que, le temps de se remettre en question, sa fenêtre de contexte n'est plus en état de continuer.

Il s'est échappé et a progressé, mais seulement après que l'instance critique du modèle a suggéré que son hypothèse était incorrecte.

Après un nettoyage du contexte, qui prend environ cinq minutes, le modèle commet les mêmes erreurs que son incarnation précédente. Les notes qu'il a écrites ne sont pas interprétées de manière pertinente dans le contexte, et je constate que la même chose se produit avec les règles de Cursor que j'écris.

L'augmentation de la longueur de la fenêtre contextuelle améliorera certaines expériences immédiates, mais il s'agit d'un problème d'échelle qui nécessite une solution différente pour que les agents soient plus efficaces et, peut-être, pour que le « Vibe Coding » se rapproche de la réalité.

Un bullet journal formalisé sur MCP aiderait-il un modèle à être plus complet et à fournir des résultats plus fiables ?

Tant que le modèle le vérifie correctement avant de conclure que son travail est terminé !

Un bullet journal peut être l'un des nombreux outils qui améliorent la fiabilité des modèles dont nous disposons aujourd'hui.

Le problème suivant est que ces modèles ne peuvent pas ingérer des informations provenant de plusieurs sources simultanées en temps réel. Dans un terminal, nous pouvons exécuter le serveur et dans un autre des tests de bout en bout. Ces deux terminaux ont été créés à la demande de l'agent. Il ignore ou n'est pas alimenté par la trace de pile enregistrée par le serveur dans le premier terminal alors qu'il observe la sortie des tests de bout en bout qui échouent et réessayent, échouent et réessayent.

Pour que les agents aient l'impact promis par le battage médiatique, les LLM ont besoin d'un mécanisme robuste pour imiter le développement de la mémoire à court et à long terme sans intégrer finement les mémoires dans le modèle.

En outre, pour que les agents puissent contribuer à une équipe, il doit y avoir un moyen de développer des mémoires à long terme liées à l'organisation et à ses produits qui fusionnent et se réconcilient avec les mémoires personnelles de chaque membre de l'équipe.

Enfin, ces mémoires doivent être portables. Au fur et à mesure que les modèles s'améliorent et sont intégrés dans nos outils, les mémoires spécifiques à un domaine doivent pouvoir être utilisées par la prochaine génération de grands modèles de langage.

Conclusion

Le "Vibe Coding" peut vous permettre d'obtenir un concept fonctionnel à 80 %. Mais pour produire quelque chose de fiable, de sûr et qui vaille la peine de dépenser de l'argent, vous aurez besoin d'humains expérimentés pour faire le travail difficile qui n'est pas possible avec les modèles d'aujourd'hui.

Les agents démontrent suffisamment de capacités pour que les PDG influents de LinkedIn répandent avec confiance l'irréalité selon laquelle nous pouvons remplacer les emplois par l'« IA agentique ».

Les agents permettent effectivement à des personnes qualifiées de créer plus indépendamment qu'elles ne l'ont jamais fait. Pour l'instant, ils ne remplaceront pas ceux qui peuvent résoudre les problèmes difficiles que seules l'expérience et l'intuition peuvent identifier. Comme d'autres solutions « no-code », les agents donnent aux personnes moins qualifiées plus de capacités qu'elles n'en avaient la veille. Tant qu'ils n'auront pas développé leurs propres compétences, les « Vibe Coders » ne seront pas en mesure de produire des logiciels de qualité dans ce monde, quelle que soit l'exponentialité de l'agent par rapport à leurs propres compétences inférieures.

Gardez un œil sur la façon dont les agents LLM se développent et s'améliorent. Pour l'instant, ils méritent d'être évalués et discutés, mais ils ne sont pas prêts à ce que nous leur déléguions la tâche précise de créer des logiciels fiables, sécurisés et évolutifs qui alimentent notre société. Le « Vibe Coding » ne créera pas le "next big thing" en 2025.

Source : "Vibe Coding" vs Reality

Et vous ?

Pensez-vous que cette analyse est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Pourquoi le « Vibe Coding » me donne envie de vomir, par Kush Creates

Être développeur à l'ère de l'IA qui raisonne par Mani Doraisamy

L'utilisation de code généré par l'IA fera de vous un mauvais programmeur par Rudis Muiznieks

Au-delà du battage médiatique : Mes réflexions honnêtes sur l'IA générative, par Mensur Durakovic

Vous avez lu gratuitement 666 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :