Tous les articles Cas d'usage

Support client augmenté par RAG : diviser le temps de résolution sans perdre en qualité

L'équipe RagNight · 10 min de lecture · 18 novembre 2025

Le support est le cas d'usage RAG au ROI le plus rapide. Copilote vs self-service, architecture sourcée, garde-fous anti-hallucination et métriques : comment diviser le temps de résolution sans sacrifier la qualité.

De tous les cas d'usage du RAG en entreprise, le support client est celui qui rentabilise le plus vite. Les questions sont répétitives, la connaissance existe déjà quelque part, et chaque minute gagnée sur un ticket se mesure directement. Mais c'est aussi un terrain où une réponse fausse coûte cher : un client mal renseigné, c'est de la confiance perdue. Tout l'enjeu est donc de diviser le temps de résolution sans dégrader la qualité — pas l'un au détriment de l'autre.

Voici comment un RAG bien conçu transforme le support, et surtout les garde-fous qui font la différence entre un assistant utile et un générateur d'ennuis.

Le vrai problème du support n'est pas le manque d'information

Dans la plupart des organisations, la réponse à la question du client existe déjà : dans la base de connaissances, dans un ticket résolu il y a six mois, dans la documentation produit, parfois dans un fil Slack de l'équipe technique. Le problème n'est pas l'absence d'information, c'est sa dispersion et son inaccessibilité au bon moment.

Conséquences classiques :

  • les nouveaux agents mettent des semaines à monter en compétence ;
  • les mêmes questions sont re-résolues de zéro, encore et encore ;
  • la qualité des réponses dépend de quel agent décroche ;
  • la connaissance des experts ne se diffuse pas.

Un RAG branché sur ces sources répond à un besoin simple : retrouver la bonne information, sourcée, au moment où on en a besoin.

Un mini-cas chiffré : ce que « diviser le TTR » veut dire concrètement

Prenons une équipe support B2B typique : 12 agents, environ 4 000 tickets par mois, un temps de résolution moyen (TTR) de 14 heures et un CSAT autour de 4,1/5. La connaissance existe — base d'aide, anciens tickets, doc produit — mais elle est éparpillée.

Après quelques mois en mode copilote interne (l'IA suggère, l'agent valide), les ordres de grandeur prudents observés sur ce type de déploiement ressemblent à ceci :

Indicateur Avant Après (copilote) Après (+ self-service)
TTR moyen 14 h ~8 h ~6 h
Temps de premier brouillon 6 min ~1,5 min instantané
Taux de déflexion 0 % 0 % ~25-30 %
CSAT 4,1 4,1-4,3 4,2

Deux lectures importantes. D'abord, le gros du gain de TTR vient du copilote, pas du self-service : l'agent rédige son brouillon en une minute au lieu de chercher pendant cinq. Ensuite, le CSAT ne baisse pas — c'est la condition non négociable. Un système qui divise le TTR par deux mais fait chuter le CSAT n'a rien résolu : il a juste déplacé le coût vers le client.

Méfiez-vous des promesses de « 70 % de tickets automatisés dès le premier mois ». Les chiffres réalistes se construisent par paliers, et la déflexion durable plafonne d'abord autour de 25-35 % sur les sujets bien couverts, pas sur l'ensemble du flux.

Deux modes complémentaires : copilote et self-service

Il existe deux façons de déployer le RAG dans le support, et elles n'ont pas le même profil de risque.

Le copilote agent

L'IA suggère une réponse sourcée à l'agent humain, qui la valide, l'ajuste et l'envoie. L'humain reste dans la boucle.

  • Bénéfices : montée en compétence accélérée, réponses homogènes, temps de traitement réduit.
  • Risque : faible — l'agent filtre les erreurs avant l'envoi.
  • Idéal pour démarrer : on capte la valeur tout en gardant un filet de sécurité.

Le self-service / la déflexion

L'utilisateur final interroge directement l'assistant, qui répond sans intervention humaine.

  • Bénéfices : déflexion des tickets simples, disponibilité 24/7, résolution instantanée.
  • Risque : plus élevé — aucune relecture humaine avant la réponse au client.
  • À ouvrir progressivement, une fois la qualité prouvée en interne.

La règle d'or : commencez en copilote interne, mesurez, puis ouvrez au self-service. Inverser l'ordre, c'est exposer vos clients à un système non éprouvé.

L'architecture, en pratique

Un assistant de support efficace combine plusieurs sources et un pipeline de récupération soigné.

Sources                      Pipeline RAG                 Sortie
─────────                    ────────────                 ──────
Base de connaissances   ┐
Tickets résolus         ├──► récupération + reranking ──► réponse
Documentation produit   ┘         ▼                        + citations
                            garde-fous (anti-hallucination,
                                       seuil de confiance)

Trois points structurants :

  1. Des sources tenues à jour — un corpus périmé produit des réponses périmées, avec aplomb. La fraîcheur n'est pas un détail.
  2. Des réponses sourcées — chaque réponse cite les documents d'où elle provient. L'agent (ou le client) peut vérifier.
  3. Une intégration au ticketing — l'assistant vit là où travaillent les agents, pas dans un onglet séparé.

Les sources, et comment les traiter différemment

Toutes les sources ne se valent pas. Les tickets résolus sont une mine, mais ils contiennent du bruit (signatures, échanges hors sujet, données personnelles à anonymiser) et parfois des réponses obsolètes : à pondérer plus bas et à rafraîchir agressivement. La base de connaissances officielle est la source de vérité, à privilégier en cas de conflit. La documentation produit évolue à chaque release : son indexation doit être déclenchée par les déploiements, pas par un cron mensuel.

Concrètement, une recherche hybride (BM25 pour les termes exacts — codes d'erreur, références produit — combinée à une recherche dense pour le sens) fusionnée par RRF, puis un reranker cross-encoder (type Cohere Rerank 3 ou bge-reranker-v2-m3 en open) qui ne garde que les 3 à 5 passages les plus pertinents. Le reranking est ce qui fait passer un assistant de « souvent à côté » à « cite la bonne procédure ».

Les citations et l'intégration au ticketing

Une citation utile n'est pas un lien vague vers un article de 40 pages : c'est le passage précis (titre de section, ancre, voire numéro de paragraphe) qui justifie la phrase. Côté ticketing (Zendesk, Intercom, Freshdesk, Salesforce Service Cloud…), l'assistant doit s'insérer dans la fenêtre de rédaction de l'agent — bouton « suggérer une réponse », brouillon pré-rempli, panneau latéral avec les sources cliquables — et journaliser chaque suggestion acceptée, modifiée ou rejetée. Ce journal est la matière première de la boucle d'amélioration.

Garde-fous anti-hallucination : du concret

« L'assistant ne doit pas halluciner » est un vœu pieux tant qu'on ne l'implémente pas. Voici des garde-fous réels et complémentaires :

  • Réponse strictement ancrée (grounding). Le prompt système impose de répondre uniquement à partir des passages récupérés et d'écrire « Je ne trouve pas cette information dans nos sources » sinon. Pas de connaissance générale du modèle injectée en douce.
  • Seuil de confiance sur la récupération. Si le meilleur passage après reranking est sous un score plancher, on n'envoie pas de réponse : on escalade. Mieux vaut un silence honnête qu'un paragraphe inventé.
  • Vérification de fidélité (faithfulness). Une seconde passe (LLM-as-judge) vérifie que chaque affirmation de la réponse est bien étayée par les sources citées. Les réponses non étayées sont bloquées ou marquées.
  • Liste de sujets interdits. Aspects juridiques, médicaux, engagements contractuels, gestes commerciaux au-delà d'un seuil : routage automatique vers un humain, sans tentative de réponse.
  • Refus de spéculer sur les prix et délais non présents dans les sources — la cause numéro un de promesses intenables.

Réponse sourcée vs non sourcée : l'exemple qui parle

La même question, deux comportements opposés.

Question du client : « Le plan Pro inclut-il le SSO SAML ? »

Réponse non sourcée (à proscrire) :

« Oui, le SSO SAML est généralement inclus dans les plans professionnels. »

C'est confiant, plausible… et potentiellement faux. Le mot « généralement » trahit une réponse devinée. Si le SSO est en réalité réservé au plan Enterprise, vous venez de créer un litige.

Réponse sourcée (attendue) :

« Le SSO SAML n'est pas inclus dans le plan Pro : il est disponible à partir du plan Enterprise.
Source : Comparatif des plans — section Sécurité & authentification (mis à jour le 12/03/2026). »

Et quand la source manque :

« Je ne trouve pas d'information confirmée sur ce point dans nos sources. Je transmets votre demande à un conseiller qui vous répondra précisément. »

La troisième réponse est la plus importante. Un assistant qui sait s'arrêter est un assistant en qui on peut avoir confiance.

Ce qui fait la qualité (et la confiance)

La différence entre un assistant qu'on adopte et un qu'on désactive tient à quelques principes :

  • Réponses vérifiables — toujours des citations. Une réponse sans source est une opinion.
  • Garde-fous anti-hallucination — l'assistant doit savoir dire « je ne sais pas » ou escalader plutôt qu'inventer. Mieux vaut une non-réponse honnête qu'une réponse fausse confiante.
  • Seuil de confiance — quand la récupération ne remonte rien de pertinent, on n'improvise pas : on bascule vers un humain.
  • Ton et politique de marque — l'assistant doit parler comme votre marque, respecter vos politiques (remboursements, garanties…).
  • Escalade fluide — le passage à l'humain doit être transparent et conserver le contexte.

Un assistant de support n'est pas jugé sur ses bonnes réponses, mais sur l'absence de mauvaises. Une seule réponse fausse et confiante détruit la confiance gagnée sur cent bonnes.

Mesurer ce qui compte

Sans mesure, impossible de savoir si l'assistant aide ou nuit. Les indicateurs à suivre, avec leur définition :

  • Temps de résolution (TTR) — délai entre l'ouverture et la clôture d'un ticket. L'objectif premier. À suivre en médiane, pas seulement en moyenne (la moyenne masque les cas extrêmes).
  • Temps de premier brouillon — temps pour que l'agent dispose d'une réponse exploitable. C'est le KPI qui bouge le plus vite en mode copilote.
  • Taux de déflexion — part des demandes résolues sans intervention humaine (self-service). Ne compter que les déflexions confirmées (le client n'a pas rouvert ni recontacté sous 48 h).
  • CSAT — satisfaction post-interaction. Doit rester stable ou monter ; jamais baisser.
  • Taux de réponses sourcées — proportion de réponses appuyées sur au moins une source vérifiable. En dessous de 90 %, le grounding fuit quelque part.
  • Taux de fidélité (faithfulness) — part des affirmations réellement étayées par les sources citées, mesurée via RAGAS ou LLM-as-judge sur un échantillon.
  • Taux d'escalade — sain quand il correspond aux vrais cas complexes ; suspect s'il explose ou tombe à zéro.
  • Lacunes détectées — les questions sans réponse satisfaisante pointent exactement où enrichir le corpus.

Ce dernier point est précieux : votre assistant devient un capteur des angles morts de votre documentation.

Les pièges à éviter

  • Le corpus périmé ou contradictoire — la première cause de mauvaises réponses. Un audit régulier s'impose.
  • La sur-automatisation — vouloir tout déflecter dès le premier jour. La confiance se construit par paliers.
  • L'absence de boucle de feedback — sans retour des agents et des clients, l'assistant ne s'améliore pas.
  • Ignorer les cas où l'humain doit primer — réclamations sensibles, clients à forte valeur, situations émotionnelles.

Un déploiement par paliers

La trajectoire qui réussit ressemble à ceci, étape par étape :

  1. Audit et préparation du corpus — anonymisation des tickets, dédoublonnage, repérage des contradictions, définition de la source de vérité. C'est 80 % du travail et c'est ici qu'il se gagne.
  2. Copilote interne, sujets restreints — on lance sur une catégorie de tickets bien documentée, en lecture seule pour l'IA. On instrumente tout (suggestions acceptées/modifiées/rejetées).
  3. Mesure et ajustement — on lit le journal, on corrige le corpus là où les lacunes apparaissent, on ajuste les seuils de confiance et le reranking.
  4. Extension du copilote — on élargit aux autres catégories à mesure que le taux d'acceptation des suggestions se stabilise.
  5. Ouverture du self-service — uniquement sur les sujets où le taux de réponses sourcées et la fidélité sont prouvés, avec escalade systématique en cas de doute et bouton « parler à un humain » toujours visible.
  6. Élargissement progressif — on étend le périmètre self-service au rythme des métriques, jamais à celui des ambitions.

À chaque palier, on garde un humain prêt à reprendre la main et on écoute ce que les lacunes détectées révèlent.

Le RAG ne remplace pas vos agents : il les débarrasse du répétitif pour les concentrer sur ce qui demande vraiment du jugement humain. C'est là que se trouve la vraie valeur.

Pour aller plus loin

  • Auditer sa base de connaissances avant l'IA : la méthode complète
  • Détecter les lacunes de votre base avec les requêtes utilisateurs

Prêt à brancher vos agents sur vos données ?

Démarrez gratuitement. Premier audit Knowledge Pulse en 60 secondes.

Démarrer gratuitement