Insight · IA appliquée
L'IA qui ne sert à rien
En six mois, cinq demandes identiques de fonctionnalités d'intelligence artificielle. Cinq refus motivés. Une analyse argumentée et chiffrée des cas d'usage où l'IA n'apporte rien — et de la méthode rigoureuse qu'il convient d'y substituer. Manifeste contre l'IA cosmétique, pas contre l'IA.
Publié le 7 mai 2026 · 11 min de lecture · Sergio Nokam
L’IA cosmétique désigne l’apposition d’une couche de modèle de langage sur un produit dont les fondations — données, positionnement, processus — n’ont pas été conçues pour la recevoir. En six mois, j’ai refusé cinq projets de ce type. Cet essai expose les refus motivés et la méthode rigoureuse substituée à chacun.
| Cas refusé | Pourquoi ça échoue | Méthode substituée |
|---|---|---|
| Chatbot universel | 15-27 % d’hallucinations hors-domaine, perte du signal humain qualifié | 4 agents ciblés couvrant 80 % du volume support |
| Recommandation algorithmique sur 180 SKU | Matrice trop creuse, signal noyé dans le bruit | Frequently-bought-together en SQL + override merchandising |
| Génération de masse de 1 200 descriptions | Drift au-delà de 100 générations + 60-80 % de similarité textuelle (duplicate content) | Copy brief + humain sur le top 50, template borné post-édité pour le reste |
| SDR-robot en B2B | Détectable en moins de 3 échanges, -60 à -70 % du taux de réponse | Formulaire qualifiant + réponse humaine sous 24 h |
| Search sémantique sur catalogue non structuré | Embedder du vide : 60 % d’attributs absents | Audit data → restructure top 20 % → embeddings à J+180 |
En l’espace de six mois, j’ai reçu cinq fois la même requête. Des interlocuteurs différents, des organisations distinctes, des étages variés au sein des comités de direction. La formulation variait, mais la demande sous-jacente, elle, demeurait invariablement identique : intégrer de l’intelligence artificielle. À chacune de ces sollicitations, le même point de bascule s’est imposé. Coder ce qui m’était demandé, encaisser la facture, passer au mandat suivant. Ou prendre le temps d’expliquer, méthodiquement, pourquoi la solution envisagée ne produirait aucun effet mesurable, voire dégraderait l’actif sur lequel elle prétendait s’appuyer.
J’ai opposé un refus argumenté aux cinq projets. Le présent manifeste expose les raisons de ces refus et la méthode rigoureuse qui leur a été substituée. Précision préalable : ce texte n’est pas un plaidoyer contre l’intelligence artificielle. Je conçois et je déploie des systèmes d’IA en production sur une base hebdomadaire. Le texte critique une pratique précise — celle qui consiste à apposer une couche de modèle de langage sur un produit dont les fondations n’ont pas été conçues pour la recevoir.
La distinction est essentielle. Une intelligence artificielle déployée sur un produit fort, des données structurées, un positionnement clairement défini, accélère la performance opérationnelle. Sur un produit faible, des données absentes, un positionnement flou, la même intelligence artificielle amplifie la faiblesse, et le fait avec une vélocité aggravée par l’illusion de modernité technique.
1. Pourquoi un chatbot universel échoue-t-il sur un site marchand ?
La requête se présente presque toujours dans une formulation strictement identique. Nous voudrions un agent conversationnel sur le site, comparable à ChatGPT, qui réponde aux questions des clients, accompagne le choix produit, traite les demandes de retour et qualifie les leads commerciaux. En d’autres termes, un agent généraliste apposé sur une organisation qui n’a jamais documenté formellement les quatre cas d’usage support qui composent l’essentiel de son trafic.
Le problème n’est pas d’ordre technique. La construction d’un agent généraliste à partir des API d’OpenAI ou d’Anthropic relève d’une semaine de travail pour un développeur expérimenté. Le problème tient à ce que les agents généralistes, dans le contexte d’une marque commerciale, ne fonctionnent pas. Les benchmarks publics établissent que les modèles de langage non spécialisés produisent des hallucinations factuelles dans des proportions variant de 15 à 27 % sur des questions sortant du cadre strictement défini par leur prompt système1. Appliqué à un site marchand, cela signifie un agent qui invente des politiques de retour, fabrique des promotions inexistantes, et répond avec un registre langagier qui n’est pas celui de la marque — pour l’excellente raison qu’aucun registre n’a jamais été spécifié.
À cette défaillance technique s’ajoute une défaillance commerciale plus grave. L’agent universel se substitue à un signal qui fonctionnait : la qualification manuelle, le formulaire court, le message reçu dans la boîte de réception d’une personne qui décide. Or, dans une économie de l’attention saturée par les automatismes, le contact humain qualifié constitue précisément le différenciateur premium.
La méthode que je substitue. Un audit systématique des 200 derniers messages du support client, sur une fenêtre de six mois. L’extraction des quatre catégories de questions qui couvrent 80 % du volume — application directe et mesurée du principe de Pareto. Pour chacune de ces catégories, la conception d’un agent ciblé, doté d’une politique strictement bornée et d’un parcours d’escalade explicite. Le reste est routé vers un opérateur humain.
Le résultat opérationnel est mesurable. Sur les déploiements que j’ai supervisés selon ce protocole, environ 50 % du volume de support se trouve automatisé, avec un taux de satisfaction supérieur à celui d’un agent généraliste, et un taux d’hallucination résiduel proche de zéro sur les sujets sensibles — remboursements, délais de livraison, garanties.
2. À partir de quel volume une recommandation algorithmique devient-elle pertinente ?
La marque commercialise 180 références. La croissance est saine. La direction souhaite déployer un moteur de recommandation comparable à celui d’Amazon sur les fiches produits.
Or, pour qu’un système de recommandation entraîné — qu’il s’agisse de filtrage collaboratif, d’embeddings sémantiques ou de réseaux de neurones — produise des résultats statistiquement significatifs, il requiert un signal. Et ce signal naît du volume. Les travaux séminaux de Sarwar, Karypis, Konstan et Riedl sur le filtrage collaboratif item-based2, dont les principes structurent encore une part substantielle des moteurs contemporains, établissent que les matrices d’interactions doivent atteindre un ordre de grandeur de plusieurs dizaines de milliers d’utilisateurs croisés à plusieurs milliers d’items pour générer des recommandations dont la précision dépasse celle d’une heuristique métier transparente. Sur 180 références et 50 000 sessions mensuelles, la matrice d’interaction est trop creuse, le signal trop bruité, l’investissement technique disproportionné.
À cette échelle, la règle métier transparente bat l’apprentissage statistique dans environ 90 % des cas opérationnels. La règle s’énonce simplement : les clients qui ont acquis le produit X ont fréquemment acquis le produit Y, dans cette fourchette saisonnière, dans cette gamme tarifaire. Aucun embedding. Aucune similarité cosinus. Une requête SQL convenablement indexée. Et — point décisif que de nombreuses agences spécialisées en intelligence artificielle négligent — un mécanisme dont la direction comprend intégralement la logique, ce qui en garantit la gouvernance.
La méthode que je substitue. Un script frequently bought together exécuté en batch nocturne, alimenté par les ventes croisées historiques. Un tableau de bord permettant à l’équipe merchandising de moduler manuellement les associations en fonction des priorités commerciales et des contraintes de stock. Le merchandiser conserve la main sur l’expérience client. La marge éditoriale demeure intacte. Le travail créatif n’est pas dilué dans une boîte noire algorithmique.
La discussion sur les embeddings sémantiques se rouvrira légitimement le jour où la marque atteindra 5 000 références et 500 000 sessions mensuelles. Pas un instant avant.
3. Pourquoi la génération de masse de descriptions produits dégrade-t-elle la marque ?
Catalogue de 1 200 produits. La direction marketing exige la génération automatique de l’intégralité des descriptions par modèle de langage. L’argument avancé est invariablement le même : gain de temps, production d’une nuit pour ce qui prendrait des semaines en interne.
Trois objections, organisées par ordre de gravité croissante.
Première objection : la qualité textuelle. Les modèles de langage produisent un contenu d’une uniformité lisse. Aucun positionnement de marque ne saurait émerger d’une production purement générative, à moins que la voix éditoriale n’ait été préalablement encodée dans 50 exemples manuellement rédigés et soigneusement contrôlés. Et même dans cette configuration optimale, le ton dérive — drift, dans le vocabulaire technique — au-delà de 100 générations consécutives.
Deuxième objection : le contenu dupliqué. Les modèles génèrent, sur un même catalogue thématique, des descriptions présentant des taux de similarité textuelle compris entre 60 et 80 % entre items voisins. Or les directives publiques de Google sur le duplicate content3 sanctionnent explicitement la duplication intra-domaine, en abaissant la visibilité organique des pages concernées. Une marque qui industrialise la génération de descriptions produits sans contrôle de similarité s’expose ainsi à un déclassement SEO sur son propre catalogue.
Troisième objection, et la plus profonde. Si la description d’un produit n’identifie pas ce qui le distingue des autres, le problème ne se situe pas au niveau de la description. Il réside soit dans le produit lui-même, qui ne se distingue effectivement pas, soit dans le positionnement de la marque, qui n’a pas été suffisamment travaillé, soit dans le copy brief, qui n’existe pas. Y apposer une couche de modèle de langage ne résout rien : on camoufle le problème véritable et on le rend plus difficile à diagnostiquer ultérieurement.
La méthode que je substitue. Un copy brief de marque, rédigé conjointement avec le fondateur ou la direction marketing, qui codifie la voix éditoriale sur sept dimensions : registre, vocabulaire admis et interdit, longueur cible, structure type, ton émotionnel, traitement des objections, signature. Ensuite, copywriting humain pour les 50 à 100 références qui portent 80 % du chiffre d’affaires. Pour le reste du catalogue, un template assisté par modèle de langage avec contraintes fortes — longueur bornée, vocabulaire interdit explicité, attributs obligatoires injectés dans le prompt — et post-édition humaine systématique avant publication.
L’opération est plus lente. Plus coûteuse en valeur unitaire. Substantiellement plus rentable en valeur stratégique.
L’élégance de l’algorithme masque la détresse de la donnée.
4. Pourquoi un SDR-robot rompt-il le contrat de respect en B2B ?
La requête revient régulièrement, et plus particulièrement dans le contexte du B2B. Nous souhaitons déployer un agent conversationnel qui dialogue avec les visiteurs du site, qualifie les opportunités, et propose un créneau Calendly aux leads identifiés comme chauds. Le terme SDR-robot — pour Sales Development Representative robotisé — est apparu dans une réunion la semaine dernière, sans guillemets, comme une évidence.
Voici la scène réelle que cette fonctionnalité produit. Un agent automatisé qui sollicite une présidente-directrice générale qui consulte le site dans une démarche de pré-qualification. Un agent qui interroge sur le budget un vice-président qui arbitre une allocation de 250 000 dollars. Un agent qui pousse vers un calendrier de prise de rendez-vous une personne qui a simplement cliqué pour comprendre ce que la marque commercialise.
Si le positionnement de la marque est premium — et il le doit, sans quoi l’économie du modèle ne tient pas — la qualification constitue elle-même un signal de respect. Prendre trente secondes pour lire ce que la personne écrit. Y répondre soi-même, ou faire répondre par un membre identifiable de l’équipe. Poser une question qui démontre que l’on a compris la situation. Libérer un créneau. Le déléguer à un agent automatisé revient à signaler au prospect, sans avoir besoin de le formuler explicitement : votre demande n’est pas suffisamment importante pour mobiliser une attention humaine.
Le signal est, par ailleurs, parfaitement reconnaissable. Les études comportementales sur les interactions B2B en 2024 et 2025 indiquent que la majorité des décideurs identifient un agent conversationnel automatisé en moins de trois échanges, et que leurs taux de réponse subséquents chutent dans des proportions de l’ordre de 60 à 70 %4. Au-delà de la perte immédiate de l’opportunité commerciale, la marque hérite d’une impression durable : ce n’était pas un partenaire sérieux, parce qu’un partenaire sérieux aurait pris le temps de répondre personnellement.
La méthode que je substitue. Une page de contact concise, structurée autour d’un formulaire qui force la qualification du côté du prospect par trois ou quatre questions précises : secteur, taille, nature du besoin, fenêtre de décision. Une notification immédiate poussée vers une boîte de réception ou un canal Slack monitoré. Le fondateur ou le commercial répond personnellement dans la journée, par un message bref mais explicitement écrit pour la situation décrite. Le différenciateur opérationnel n’est pas l’automatisation. C’est la rapidité humaine, qui constitue, dans l’économie actuelle de l’inbox saturée, un signal de prix premium parfaitement décodable par les acheteurs sophistiqués.
5. Pourquoi un search sémantique sur des données non structurées échoue-t-il ?
Marketplace mid-market. La direction technique souhaite déployer un moteur de recherche sémantique fondé sur des embeddings, comparable à Algolia mais doté d’une compréhension du sens.
L’examen de la base produit révèle l’état suivant. Les noms commerciaux sont à peu près cohérents. Les attributs structurés — matière, couleur, dimension, compatibilité, cas d’usage — sont absents dans environ 60 % des fiches. Les descriptions consistent en paragraphes de trente mots dont la moitié relève du marketing creux. Aucune hiérarchie de catégories cohérente n’a été établie. À la place, trois années d’accumulation de tags ad hoc, sans gouvernance, sans normalisation, sans audit périodique. L’audit annuel du HTTP Archive sur les sites e-commerce5 confirme que cet état de la donnée constitue la norme, et non l’exception, sur le segment mid-market — ce qui rend la conclusion suivante d’autant plus généralisable.
Greffer un moteur de recherche vectoriel sur cette donnée reviendrait à embedder du vide. Le modèle calculerait des similarités à partir du bruit. Les résultats produits seraient inférieurs à ceux du full-text search par mots-clés actuellement en place, qui présente au moins l’avantage d’opérer sur ce qui existe matériellement dans les fiches.
La méthode que je substitue. Un audit systématique de la qualité de la donnée sur l’intégralité du catalogue. Identification des 20 % de références qui réalisent 80 % du chiffre d’affaires. Restructuration manuelle des attributs sur ces références prioritaires : matière, dimension, compatibilité, cas d’usage explicites. Établissement d’une hiérarchie de catégories normalisée et documentée, avec une procédure de gouvernance pour les ajouts ultérieurs. Et seulement à cette étape — typiquement six mois plus tard — l’introduction d’un search sémantique.
Le moteur fonctionnera alors. Pour la raison élémentaire qu’il aura, enfin, quelque chose à comprendre.
Pourquoi l’intelligence artificielle fonctionne-t-elle comme un amplificateur ?
Cinq projets refusés en six mois. Une part substantielle de revenu non facturé. Une réputation à construire — celle d’un praticien qui examine la nature du problème avant d’écrire la première ligne de code.
L’intelligence artificielle, dans son état de maturité de 2026, fonctionne comme un amplificateur. Sur un produit fort, des données structurées, un positionnement défini, une équipe qui sait précisément ce qu’elle attend du déploiement, elle accélère brutalement la performance opérationnelle. C’est précisément ce que l’on observe dans les meilleures équipes commerce et SaaS contemporaines.
Sur un produit faible, des données absentes, un positionnement flou, une équipe qui sollicite l’intelligence artificielle pour combler l’absence d’autre chose, elle amplifie la faiblesse. Plus rapidement. Plus visiblement. Et avec un coût d’opportunité d’autant plus lourd que l’investissement technique aura été significatif.
Le critère de pré-qualification que je propose à mes interlocuteurs est invariable. Avant d’envisager une fonctionnalité d’IA, cartographier précisément ce qui mérite d’être amplifié. Les quatre cas support qui reviennent. Les 50 références qui portent la marque. Les trois processus qui mobilisent 10 heures par semaine sur l’équipe. Les zones où l’humain est déjà excellent et où la machine peut multiplier l’effet. Si cette cartographie n’a pas été établie, ou si elle révèle l’absence d’un actif amplifiable, la priorité n’est pas l’intelligence artificielle. Elle est ailleurs, et elle est plus fondamentale.
C’est précisément l’engagement que porte AI Spark : une fonctionnalité d’intelligence artificielle déployée en production, mesurée sur un indicateur opérationnel défini contractuellement à l’avance, garantie par une clause de remboursement intégral ou de refonte sans coût additionnel si l’objectif n’est pas atteint dans les 30 jours suivant la mise en service. Lorsqu’un mandat est signé, il l’est sur un résultat mesurable.
Pas sur un script qui imite.
Footnotes
-
Les évaluations du benchmark HELM (Holistic Evaluation of Language Models, Stanford CRFM) et des benchmarks dérivés établissent des taux d’hallucination factuelle compris entre 15 et 27 % sur les modèles généralistes appliqués à des questions hors-domaine, avec une variance significative selon le modèle, le prompt system et la nature du domaine cible. Voir : crfm.stanford.edu/helm. ↩
-
Sarwar, Karypis, Konstan, Riedl (2001), Item-Based Collaborative Filtering Recommendation Algorithms, Proceedings of the 10th International Conference on World Wide Web. Document fondateur dont les principes structurent encore les architectures de recommandation contemporaines. ↩
-
Google Search Central — guidelines officielles sur le contenu dupliqué : developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls. ↩
-
Les rapports d’industrie publiés par les acteurs majeurs du sales engagement (Outreach, Salesloft, HubSpot 2024-2025) convergent sur un effondrement des taux de réponse B2B lorsque l’expéditeur initial est identifié comme un agent automatisé, avec des chutes mesurées entre 50 et 75 % selon les segments et la séniorité du destinataire. ↩
-
Web Almanac (HTTP Archive) — rapport annuel sur l’état de la donnée structurée et de la qualité des catalogues e-commerce : almanac.httparchive.org. ↩
Questions fréquentes
Quand l'IA générative apporte-t-elle réellement de la valeur en e-commerce ?
Quand trois conditions sont réunies : un produit qui a une voix éditoriale identifiable, des données structurées sur au moins 80 % des items (attributs, catégories, taxonomie cohérente), et un cas d'usage défini contractuellement avant le développement avec un KPI mesurable. Sans ces trois, le déploiement amplifie la faiblesse plutôt que la force.
Comment savoir si mes données sont prêtes pour un search sémantique ?
Test simple sur 100 fiches : combien ont (a) un nom commercial cohérent, (b) au moins cinq attributs structurés remplis, (c) une catégorie qui résiste à un audit de cohérence. Si moins de 70 % réussissent les trois critères, la priorité n'est pas le search sémantique mais la restructuration des données. Six mois de remise en forme batteront six mois d'embeddings sur du bruit.
Combien de produits faut-il pour qu'un moteur de recommandation algorithmique soit pertinent ?
La règle empirique : au moins 5 000 références croisées à 500 000 sessions mensuelles pour qu'un filtrage collaboratif batte une heuristique métier transparente. En dessous, une règle frequently-bought-together indexée en SQL avec override merchandising dépasse statistiquement le système entraîné dans environ 90 % des cas opérationnels. Et reste pilotable par l'équipe.
Le chatbot client est-il toujours une mauvaise idée ?
Non. Un chatbot ciblé sur les 4 à 6 catégories de questions qui couvrent 80 % du volume support l'emporte sur l'humain à condition d'être borné par une politique stricte et doublé d'un parcours d'escalade explicite. C'est l'agent généraliste apposé sans cadrage qui produit hallucinations factuelles et dérive hors-marque.
Quelle est la première chose à auditer avant un projet IA en production ?
La cartographie des assets amplifiables : les 4 cas support qui reviennent, les 50 références qui portent la marque, les 3 processus qui mobilisent 10+ heures par semaine sur l'équipe. L'IA fonctionne en multiplicateur de signal existant. Sans signal cartographié au préalable, elle multiplie le bruit avec une vélocité aggravée par l'illusion de modernité technique.