En 2026, modèle et frameworks sont des commodités : un agent IA se monte en un week-end. La vraie variable, c'est la couche de données. Trois symptômes d'une base non prête, et les quatre critères d'une donnée prête pour l'IA.
En 2026, construire un agent IA n'est plus un projet d'ingénierie : c'est une formalité de week-end. N'importe quelle équipe de cinq personnes branche un LLM, ajoute un orchestrateur, et obtient un assistant conversationnel qui tient la route en démo. Le problème, c'est que la démo ment. Dès qu'on connecte cet agent à la réalité de l'entreprise — ses procédures, ses contrats, ses politiques internes, ses tarifs à jour — il déraille. Et la cause n'est presque jamais le modèle.
Ce texte défend une thèse simple et impopulaire : le modèle et les frameworks sont devenus des commodités, et la seule variable qui décide encore de la qualité d'un agent, c'est la couche de données sur laquelle il s'appuie. Tant que vous traiterez cette couche comme un détail d'intégration, vous paierai des modèles de plus en plus chers pour des réponses de plus en plus confiantes — et tout aussi fausses.
Le problème n'est plus le modèle
Faites l'inventaire de ce qui était difficile il y a trois ans et qui est aujourd'hui résolu. Les modèles de raisonnement de pointe — Claude (famille 4), GPT et la série o d'OpenAI, Gemini 2.x — sont accessibles via une requête HTTP. Les modèles ouverts ont rattrapé l'essentiel du retard : Llama 4, Mistral Large 2, Qwen 3, DeepSeek-V3 et son cousin de raisonnement DeepSeek-R1, Gemma 3. Vous pouvez les héberger chez un fournisseur souverain européen — OVHcloud, Scaleway, Mistral sur La Plateforme — si la résidence des données l'exige.
L'orchestration aussi est commodifiée. LangChain et LlamaIndex couvrent le RAG, les outils, la mémoire ; n8n permet à une équipe métier de câbler un workflow agentique sans écrire de code. Les embeddings sont à portée d'API (text-embedding-3-large d'OpenAI, voyage-3, Cohere embed v3, ou le multilingue ouvert bge-m3). Le stockage vectoriel tient dans une extension PostgreSQL (pgvector, index HNSW).
En 2026, choisir son LLM ressemble de plus en plus à choisir son fournisseur d'électricité : ça compte pour la facture et la conformité, presque plus pour la qualité du résultat.
Conclusion : si deux entreprises concurrentes utilisent le même modèle, le même framework et le même reranker, ce qui les différencie n'est pas dans la stack IA. C'est dans ce que l'agent peut lire. Un agent n'est jamais meilleur que le corpus qu'on lui donne à interroger. Vous avez commodifié le cerveau ; il vous reste à construire la mémoire.
Trois symptômes que vos données ne sont pas prêtes
Avant de débattre d'architecture, regardez les symptômes. Les agents mal nourris échouent toujours de la même manière. Si vous reconnaissez l'un de ces trois comportements en production, le problème est dans vos données, pas dans votre prompt système.
Symptôme 1 — L'agent invente
Il répond avec aplomb, cite un montant, une clause, une procédure — et tout est faux. Ce n'est pas un caprice du modèle : c'est le comportement par défaut d'un LLM à qui on pose une question dont la réponse n'est pas dans le contexte fourni. Le modèle complète la phrase la plus probable. En l'absence de fait pertinent récupéré, le « plus probable » est une invention plausible.
Concrètement : un client demande « quel est le délai de rétractation sur l'offre Pro ? ». Si votre récupération renvoie trois chunks parlant de l'offre Standard et aucun de l'offre Pro, l'agent extrapolera depuis le Standard. La réponse sera cohérente, bien rédigée, et juridiquement fausse.
Une hallucination n'est presque jamais un échec de génération. C'est un échec de récupération qui remonte jusqu'à l'utilisateur.
Pourquoi ça survient : chunks trop gros (le passage pertinent est noyé), embeddings mal adaptés à votre domaine, absence de reranking, ou simplement document manquant. Comment y remédier : mesurer le context recall (le bon passage est-il récupéré ?) avant de toucher au modèle ; ajouter un reranker cross-encoder (Cohere Rerank 3, ou l'ouvert bge-reranker-v2-m3) pour remonter le bon chunk dans le top-k ; et surtout instruire l'agent de répondre « je n'ai pas cette information » quand le score de pertinence est faible plutôt que de combler le vide.
Symptôme 2 — L'agent dit « je ne sais pas »
C'est le symptôme inverse, et il est plus honnête mais tout aussi inutile. L'agent a accès au web public, à sa connaissance pré-entraînée, mais pas à votre documentation interne. Il ne sait rien de votre politique de remboursement, de votre runbook d'incident, de la dernière version du contrat-cadre signé avec ce grand compte.
Concrètement : l'information existe — dans un PDF sur un Drive, dans une page Notion, dans un thread Slack archivé, dans un wiki interne. Mais elle n'a jamais été ingérée, indexée, rendue récupérable. L'agent ne ment pas ; il est aveugle.
Pourquoi ça survient : silos. Vos connaissances sont éparpillées dans dix outils, dans des formats hétérogènes, derrière dix systèmes d'authentification. Personne n'a construit le pont d'ingestion. Comment y remédier : un pipeline d'ingestion qui se connecte aux sources réelles (Drive, Notion, GitHub, dépôts de fichiers), normalise les formats, et maintient la fraîcheur par resynchronisation incrémentale. Un document ingéré une fois en janvier et jamais mis à jour redeviendra une source de symptôme 1 (invention sur base périmée) dès février.
Symptôme 3 — L'agent contredit vos politiques
Le plus dangereux des trois, car il passe les tests. L'agent répond, cite une source réelle, paraît crédible — mais il s'appuie sur le brouillon de 2022, sur la politique tarifaire abrogée, sur la procédure remplacée après le dernier audit. La réponse est traçable et fausse en même temps.
Concrètement : votre base contient cinq versions du « guide de remboursement », dont quatre obsolètes, parce que personne n'a jamais supprimé les anciennes. La recherche sémantique, qui ne connaît rien de la chronologie ni du statut « officiel », récupère la plus proche sémantiquement — souvent une vieille version, plus verbeuse et donc plus « riche » en signal.
Indexer un document ne le rend pas vrai. Une base de connaissances sans gouvernance de versions est une machine à propager des décisions périmées, à grande échelle.
Pourquoi ça survient : absence de validation et de statut. Tous les documents pèsent le même poids dans l'index. Comment y remédier : marquer chaque source (officielle / brouillon / archivée), filtrer à la récupération sur le statut et la date, et n'autoriser dans le contexte que ce qui est validé. La fraîcheur et la validation ne sont pas des fonctionnalités de confort : ce sont des conditions de correction.
Qu'est-ce qu'une donnée prête pour l'IA ?
Ces trois symptômes ont une cause unique : votre couche de données n'a pas été conçue pour un usage IA. Une donnée prête à être interrogée par un agent coche quatre cases. Aucune n'est optionnelle ; il suffit qu'une seule manque pour qu'un des trois symptômes réapparaisse.
1. Centralisée
Un seul endroit à interroger, pas dix. Tant que la connaissance vit dans des silos, l'agent doit soit en ignorer une partie (symptôme 2), soit jongler entre des sources qui se contredisent (symptôme 3). Centraliser ne veut pas dire tout recopier à la main : cela veut dire un pipeline d'ingestion qui rapatrie, normalise et tient à jour, avec un connecteur par source.
Drive ─┐
Notion ─┤
GitHub ─┼─► ingestion ─► nettoyage ─► chunking ─► embeddings ─► index pgvector
Fichiers┘ (+ métadonnées : source, version, date, statut)
2. Vectorisée — mais pas seulement
Indexée sémantiquement, pour retrouver un passage par le sens et pas seulement par les mots exacts. C'est nécessaire mais insuffisant. La recherche purement dense rate les correspondances littérales (références produit, codes d'erreur, numéros de clause). La bonne pratique en 2026 est hybride : combiner BM25 (lexical) et vecteurs denses, fusionner les classements par RRF (Reciprocal Rank Fusion), puis reranker les meilleurs candidats avec un cross-encoder.
requête ──► BM25 (lexical) ───┐
└─► dense (pgvector) ─┴─► fusion RRF ──► reranker ──► top-k au LLM
Soigner le chunking compte autant que le modèle d'embedding : des passages trop longs diluent le signal, trop courts perdent le contexte. Des techniques comme le contextual retrieval (préfixer chaque chunk d'un court contexte généré par LLM) ou le late chunking réduisent sensiblement les ratés de récupération à l'origine du symptôme 1.
3. Validée
Versions à jour, sources officielles, pas le brouillon de 2022. C'est la case la plus négligée parce qu'elle relève de la gouvernance, pas de la technique. Il faut un statut explicite par document, une date de validité, une politique de purge des versions périmées, et un filtrage à la récupération qui ne laisse passer que l'officiel et le frais. Sans cela, vous automatisez la diffusion de vos erreurs passées.
4. Attribuable
Chaque réponse de l'agent cite sa source — document, version, passage exact. L'attribution n'est pas un confort de conformité : c'est le seul mécanisme qui rend une réponse vérifiable. Un agent qui cite permet à l'utilisateur de juger, au DPO d'auditer, et à vous de détecter qu'une réponse s'appuie sur une source périmée (et donc de remonter au symptôme 3 avant qu'il ne fasse de dégât). Techniquement, cela suppose de conserver la traçabilité chunk → document → source tout au long du pipeline, et d'exiger du modèle qu'il s'appuie uniquement sur les passages cités.
Centralisée, vectorisée, validée, attribuable. Les quatre ensemble. Trois sur quatre, et l'un des trois symptômes revient — souvent le plus discret, donc le plus coûteux.
Mesurer plutôt que croire
On ne pilote pas une couche de connaissances à l'intuition. Avant de blâmer le modèle, instrumentez la récupération. Un golden set — un jeu de questions de référence avec les passages attendus — vous dit en quelques minutes si le bon contexte remonte. Des métriques comme le context recall et la context precision (RAGAS), complétées par un LLM-as-judge sur la fidélité (faithfulness), distinguent un échec de récupération d'un échec de génération. Dans la quasi-totalité des cas que nous voyons, le problème est en amont : le bon passage n'a jamais atteint le contexte du modèle.
La couche de connaissance, pas un agent de plus
C'est précisément le rôle de RagNight. Pendant que vos équipes construisent l'agent — avec le framework et le modèle de leur choix — nous construisons la couche qui le rend utile : ingestion des sources réelles, chunking et recherche hybride soignés, gouvernance des versions, attribution systématique. Vous branchez vos sources (PDF, Notion, Drive, GitHub), nous les ingérons et les maintenons à jour, et votre agent les interroge via notre API.
Le point d'entrée le plus rapide est un diagnostic : Knowledge Pulse audite votre base existante et signale ce qui empêche vos données d'être prêtes pour l'IA — silos, doublons de versions, documents périmés, trous de couverture. C'est le moyen le plus honnête de savoir lequel des trois symptômes vous guette avant de l'apprendre par un client.
Pour aller plus loin
- Auditer sa base de connaissances avant l'IA : la méthode complète
- 5 signes que votre base de connaissances n'est pas prête pour l'IA
- Modèles ouverts vs API propriétaires : quel choix pour une IA souveraine ?