Insight · IA appliquée

L'IA qui ne sert à rien

En six mois, cinq demandes identiques de fonctionnalités d'intelligence artificielle. Cinq refus motivés. Une analyse argumentée et chiffrée des cas d'usage où l'IA n'apporte rien — et de la méthode rigoureuse qu'il convient d'y substituer. Manifeste contre l'IA cosmétique, pas contre l'IA.

Publié le 7 mai 2026 · 11 min de lecture · Sergio Nokam


En l’espace de six mois, j’ai reçu cinq fois la même requête. Des interlocuteurs différents, des organisations distinctes, des étages variés au sein des comités de direction. La formulation variait, mais la demande sous-jacente, elle, demeurait invariablement identique : intégrer de l’intelligence artificielle. À chacune de ces sollicitations, le même point de bascule s’est imposé. Coder ce qui m’était demandé, encaisser la facture, et passer au mandat suivant. Ou prendre le temps d’expliquer, méthodiquement, pourquoi la solution envisagée ne produirait aucun effet mesurable, voire dégraderait l’actif sur lequel elle prétendait s’appuyer.

J’ai opposé un refus argumenté aux cinq projets. Ce manifeste expose les raisons de ces refus et la méthode rigoureuse qui leur a été substituée. Il convient de le préciser d’emblée : ce texte n’est pas un plaidoyer contre l’intelligence artificielle. Je conçois et je déploie des systèmes d’IA en production sur une base hebdomadaire. Il s’agit ici de critiquer une pratique précise — celle qui consiste à apposer une couche de modèle de langage sur un produit dont les fondations n’ont pas été conçues pour la recevoir.

La distinction est essentielle. Une intelligence artificielle déployée sur un produit fort, des données structurées, un positionnement clairement défini, accélère significativement la performance opérationnelle. Sur un produit faible, des données absentes, un positionnement flou, la même intelligence artificielle amplifie la faiblesse, et le fait avec une vélocité aggravée par l’illusion de modernité technique.

1. Le chatbot universel, ou la généralité comme défaut de conception

La requête se présente presque toujours dans une formulation strictement identique. Nous voudrions un agent conversationnel sur le site, comparable à ChatGPT, qui réponde aux questions des clients, accompagne le choix produit, traite les demandes de retour et qualifie les leads commerciaux. En d’autres termes, un agent généraliste apposé sur une organisation qui n’a jamais documenté formellement les quatre cas d’usage support qui composent l’essentiel de son trafic.

Le problème n’est pas d’ordre technique. La construction d’un agent généraliste à partir des API d’OpenAI ou d’Anthropic relève d’une semaine de travail pour un développeur expérimenté. Le problème tient à ce que les agents généralistes, dans le contexte d’une marque commerciale, ne fonctionnent pas. Les benchmarks publics établissent que les modèles de langage non spécialisés produisent des hallucinations factuelles dans des proportions variant de 15 à 27 % sur des questions sortant du cadre strictement défini par leur prompt système1. Appliqué à un site marchand, cela signifie un agent qui invente des politiques de retour, fabrique des promotions inexistantes, et répond avec un registre langagier qui n’est pas celui de la marque — pour l’excellente raison qu’aucun registre n’a jamais été spécifié.

À cette défaillance technique s’ajoute une défaillance commerciale plus grave. L’agent universel se substitue à un signal qui fonctionnait : la qualification manuelle, le formulaire court, le message reçu dans la boîte de réception d’une personne qui décide. Or, dans une économie de l’attention saturée par les automatismes, le contact humain qualifié constitue précisément le différentiateur premium.

La méthode que je substitue. Un audit systématique des deux cents derniers messages du support client, sur une fenêtre de six mois. L’extraction des quatre catégories de questions qui couvrent quatre-vingts pour cent du volume — une application directe et mesurée du principe de Pareto. Pour chacune de ces catégories, la conception d’un agent ciblé, doté d’une politique strictement bornée et d’un parcours d’escalade explicite. Le reste est routé vers un opérateur humain.

Le résultat opérationnel est mesurable. Sur les déploiements que j’ai supervisés selon ce protocole, environ cinquante pour cent du volume de support se trouve automatisé, avec un taux de satisfaction supérieur à celui d’un agent généraliste, et un taux d’hallucination résiduel proche de zéro sur les sujets sensibles — remboursements, délais de livraison, garanties.

2. La recommandation algorithmique sur un catalogue restreint

La marque commercialise cent quatre-vingts références. La croissance est saine. La direction souhaite déployer un moteur de recommandation comparable à celui d’Amazon sur les fiches produits.

Or, pour qu’un système de recommandation entraîné — qu’il s’agisse de filtrage collaboratif, d’embeddings sémantiques ou de réseaux de neurones — produise des résultats statistiquement significatifs, il requiert un signal. Et ce signal naît du volume. Les travaux séminaux de Sarwar, Karypis, Konstan et Riedl sur le filtrage collaboratif item-based2, dont les principes structurent encore une part substantielle des moteurs de recommandation contemporains, établissent que les matrices d’interactions doivent atteindre un ordre de grandeur de plusieurs dizaines de milliers d’utilisateurs croisés à plusieurs milliers d’items pour générer des recommandations dont la précision dépasse celle d’une heuristique métier transparente. Sur cent quatre-vingts références et cinquante mille sessions mensuelles, la matrice d’interaction est trop creuse, le signal trop bruité, l’investissement technique disproportionné.

À cette échelle, la règle métier transparente bat l’apprentissage statistique dans environ quatre-vingt-dix pour cent des cas opérationnels. La règle s’énonce simplement : les clients qui ont acquis le produit X ont fréquemment acquis le produit Y, dans cette fourchette saisonnière, dans cette gamme tarifaire. Aucun embedding. Aucune similarité cosinus. Une requête SQL convenablement indexée. Et — point décisif que de nombreuses agences spécialisées en intelligence artificielle négligent — un mécanisme dont la direction comprend intégralement la logique, ce qui en garantit la gouvernance.

La méthode que je substitue. Un script frequently bought together exécuté en batch nocturne, alimenté par les ventes croisées historiques. Un tableau de bord permettant à l’équipe merchandising de moduler manuellement les associations en fonction des priorités commerciales et des contraintes de stock. Le merchandiser conserve la main sur l’expérience client. La marge éditoriale demeure intacte. Le travail créatif n’est pas dilué dans une boîte noire algorithmique.

La discussion sur les embeddings sémantiques se rouvrira légitimement le jour où la marque atteindra cinq mille références et cinq cent mille sessions mensuelles — pas un instant avant.

3. La génération de masse de descriptions produits, ou la médiocrité industrialisée

Catalogue de mille deux cents produits. La direction marketing exige la génération automatique de l’intégralité des descriptions par modèle de langage. L’argument avancé est invariablement le même : gain de temps, production d’une nuit pour ce qui prendrait des semaines en interne.

Trois objections, organisées par ordre de gravité croissante.

Première objection : la qualité textuelle. Les modèles de langage produisent un contenu d’une lissite uniforme. Aucun positionnement de marque ne saurait émerger d’une production purement générative, à moins que la voix éditoriale n’ait été préalablement encodée dans cinquante exemples manuellement rédigés et soigneusement contrôlés. Et même dans cette configuration optimale, le ton dérive — drift, dans le vocabulaire technique — au-delà d’une centaine de générations consécutives.

Deuxième objection : le contenu dupliqué. Les modèles génèrent, sur un même catalogue thématique, des descriptions présentant des taux de similarité textuelle compris entre 60 et 80 % entre items voisins. Or les directives publiques de Google sur le duplicate content3 sanctionnent explicitement la duplication intra-domaine, en abaissant la visibilité organique des pages concernées. Une marque qui industrialise la génération de descriptions produits sans contrôle de similarité s’expose ainsi à un déclassement SEO sur son propre catalogue.

Troisième objection, et la plus profonde. Si la description d’un produit n’identifie pas ce qui le distingue des autres, le problème ne se situe pas au niveau de la description. Il réside soit dans le produit lui-même, qui ne se distingue effectivement pas, soit dans le positionnement de la marque, qui n’a pas été suffisamment travaillé, soit dans le copy brief, qui n’existe pas. Apposer une couche de modèle de langage sur ce vide ne résout rien : elle camoufle le problème véritable et le rend plus difficile à diagnostiquer ultérieurement.

La méthode que je substitue. La rédaction d’un copy brief de marque, mené conjointement avec le fondateur ou la direction marketing, qui définit la voix éditoriale sur dix dimensions concrètes — registre, vocabulaire admis, vocabulaire interdit, longueur cible, structure type, registre comparatif, ton émotionnel, traitement des arguments techniques, traitement des objections, signature de fin. Ensuite, copywriting humain pour les cinquante à cent références qui constituent quatre-vingts pour cent du chiffre d’affaires — celles qui portent la marque. Pour le reste du catalogue, un template assisté par modèle de langage avec contraintes fortes — longueur strictement bornée, vocabulaire interdit explicité, attributs obligatoires intégrés au prompt — et post-édition humaine systématique avant publication.

L’opération est plus lente. Plus coûteuse en valeur unitaire. Substantiellement plus rentable en valeur stratégique.

L’élégance de l’algorithme masque la détresse de la donnée.

4. Le SDR-robot, ou l’automatisation comme rupture du contrat de respect

La requête revient régulièrement, et plus particulièrement dans le contexte du B2B. Nous souhaitons déployer un agent conversationnel qui dialogue avec les visiteurs du site, qualifie les opportunités, et propose un créneau Calendly aux leads identifiés comme chauds. Le terme SDR-robot — pour Sales Development Representative robotisé — est apparu dans une réunion la semaine dernière, sans guillemets, comme une évidence.

Voici la scène réelle que cette fonctionnalité produit. Un agent automatisé qui sollicite une présidente-directrice générale qui consulte le site dans une démarche de pré-qualification. Un agent qui interroge sur le budget un vice-président qui arbitre une allocation de deux cent cinquante mille dollars. Un agent qui pousse vers un calendrier de prise de rendez-vous une personne qui a simplement cliqué pour comprendre ce que la marque commercialise.

Si le positionnement de la marque est premium — et il le doit, sans quoi l’économie du modèle ne tient pas — la qualification constitue elle-même un signal de respect. Prendre trente secondes pour lire ce que la personne écrit. Y répondre soi-même, ou faire répondre par un membre identifiable de l’équipe. Poser une question qui démontre que l’on a compris la situation. Libérer un créneau. Le déléguer à un agent automatisé revient à signaler au prospect, sans avoir besoin de le formuler explicitement : votre demande n’est pas suffisamment importante pour mobiliser une attention humaine.

Le signal est, par ailleurs, parfaitement reconnaissable. Les études comportementales sur les interactions B2B en 2024 et 2025 indiquent que la majorité des décideurs identifient un agent conversationnel automatisé en moins de trois échanges, et que leurs taux de réponse subséquents chutent dans des proportions de l’ordre de 60 à 70 %4. Au-delà de la perte immédiate de l’opportunité commerciale, la marque hérite d’une impression durable : ce n’était pas un partenaire sérieux, parce qu’un partenaire sérieux aurait pris le temps de répondre personnellement.

La méthode que je substitue. Une page de contact concise, structurée autour d’un formulaire qui force la qualification du côté du prospect par trois ou quatre questions précises — secteur, taille, nature du besoin, fenêtre de décision. Une notification immédiate poussée vers une boîte de réception ou un canal Slack monitoré. Le fondateur ou le commercial répond personnellement dans la journée, par un message bref mais explicitement écrit pour la situation décrite. Le différentiateur opérationnel n’est pas l’automatisation. C’est la rapidité humaine, qui constitue, dans l’économie actuelle de l’inbox saturée, un signal de prix premium parfaitement décodable par les acheteurs sophistiqués.

5. Le search sémantique sur des données qui n’ont jamais été structurées

Marketplace mid-market. La direction technique souhaite déployer un moteur de recherche sémantique fondé sur des embeddings, comparable à Algolia mais doté d’une compréhension du sens.

L’examen de la base produit révèle l’état suivant. Les noms commerciaux sont à peu près cohérents. Les attributs structurés — matière, couleur, dimension, compatibilité, cas d’usage — sont absents dans environ soixante pour cent des fiches. Les descriptions consistent en paragraphes de trente mots dont la moitié relève du marketing creux. Aucune hiérarchie de catégories cohérente n’a été établie. À la place, trois années d’accumulation de tags ad hoc, sans gouvernance, sans normalisation, sans audit périodique. L’audit annuel du HTTP Archive sur les sites e-commerce5 confirme que cet état de la donnée constitue la norme, et non l’exception, sur le segment mid-market — ce qui rend la conclusion suivante d’autant plus généralisable.

Greffer un moteur de recherche vectoriel sur cette donnée reviendrait à embedder du vide. Le modèle calculerait des similarités à partir du bruit. Les résultats produits seraient inférieurs à ceux du full-text search par mots-clés actuellement en place, qui présente au moins l’avantage d’opérer sur ce qui existe matériellement dans les fiches.

La méthode que je substitue. Un audit systématique de la qualité de la donnée sur l’intégralité du catalogue. Identification des vingt pour cent de références qui réalisent quatre-vingts pour cent du chiffre d’affaires. Restructuration manuelle des attributs sur ces références prioritaires — matière, dimension, compatibilité, cas d’usage explicites. Établissement d’une hiérarchie de catégories normalisée et documentée, avec une procédure de gouvernance pour les ajouts ultérieurs. Et seulement à cette étape — typiquement six mois plus tard — l’introduction d’un search sémantique.

Le moteur fonctionnera alors. Pour la raison élémentaire qu’il aura, enfin, quelque chose à comprendre.

L’intelligence artificielle est un amplificateur

Cinq projets refusés en six mois. Une part substantielle de revenu non facturé. Une réputation à construire — celle d’un praticien qui examine la nature du problème avant d’écrire la première ligne de code.

L’intelligence artificielle, dans son état de maturité de 2026, fonctionne comme un amplificateur. Sur un produit fort, des données structurées, un positionnement défini, une équipe qui sait précisément ce qu’elle attend du déploiement, elle accélère brutalement la performance opérationnelle. C’est précisément ce que l’on observe dans les meilleures équipes commerce et SaaS contemporaines.

Sur un produit faible, des données absentes, un positionnement flou, une équipe qui sollicite l’intelligence artificielle pour combler l’absence d’autre chose, elle amplifie la faiblesse. Plus rapidement. Plus visiblement. Et avec un coût d’opportunité d’autant plus lourd que l’investissement technique aura été significatif.

Le critère de pré-qualification que je propose à mes interlocuteurs est invariable. Avant d’envisager une fonctionnalité d’IA, cartographier précisément ce qui mérite d’être amplifié. Les quatre cas support qui reviennent. Les cinquante références qui portent la marque. Les trois processus qui mobilisent dix heures par semaine sur l’équipe. Les zones où l’humain est déjà excellent et où la machine peut multiplier l’effet. Si cette cartographie n’a pas été établie, ou si elle révèle l’absence d’un actif amplifiable, la priorité n’est pas l’intelligence artificielle. Elle est ailleurs, et elle est plus fondamentale.

C’est précisément l’engagement que porte AI Spark : une fonctionnalité d’intelligence artificielle déployée en production, mesurée sur un indicateur opérationnel défini contractuellement à l’avance, garantie par une clause de remboursement intégral ou de refonte sans coût additionnel si l’objectif n’est pas atteint dans les trente jours suivant la mise en service. Lorsqu’un mandat est signé, il l’est sur un résultat mesurable.

Pas sur un script qui imite.


Footnotes

  1. Les évaluations du benchmark HELM (Holistic Evaluation of Language Models, Stanford CRFM) et des benchmarks dérivés établissent des taux d’hallucination factuelle compris entre 15 et 27 % sur les modèles généralistes appliqués à des questions hors-domaine, avec une variance significative selon le modèle, le prompt system et la nature du domaine cible. Voir : crfm.stanford.edu/helm.

  2. Sarwar, Karypis, Konstan, Riedl (2001), Item-Based Collaborative Filtering Recommendation Algorithms, Proceedings of the 10th International Conference on World Wide Web. Document fondateur dont les principes structurent encore les architectures de recommandation contemporaines.

  3. Google Search Central — guidelines officielles sur le contenu dupliqué : developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls.

  4. Les rapports d’industrie publiés par les acteurs majeurs du sales engagement (Outreach, Salesloft, HubSpot 2024-2025) convergent sur un effondrement des taux de réponse B2B lorsque l’expéditeur initial est identifié comme un agent automatisé, avec des chutes mesurées entre 50 et 75 % selon les segments et la séniorité du destinataire.

  5. Web Almanac (HTTP Archive) — rapport annuel sur l’état de la donnée structurée et de la qualité des catalogues e-commerce : almanac.httparchive.org.