Préparer ses données pour l’IA en entreprise

Pourquoi les données précèdent le modèle

La plupart des projets IA sont présentés comme des choix d’outils : ChatGPT, Copilot, Mistral, Claude, assistant métier, agent, RAG ou automatisation. C’est compréhensible, car l’outil est visible. Pourtant, dans une entreprise, la question décisive arrive avant l’outil : quelles données l’IA aura-t-elle le droit de lire, avec quel niveau de confiance, dans quel contexte et pour produire quelle décision ?

Un modèle peut formuler une réponse convaincante avec une source fragile. Il peut résumer une procédure obsolète, mélanger deux versions d’un document, ignorer une restriction contractuelle ou donner la même assurance sur un fichier validé et sur une note de travail. Le problème n’est pas seulement technique. Il touche la responsabilité, la relation client, la conformité, la qualité interne et parfois la sécurité.

La CNIL rappelle que la phase de développement d’un système d’IA inclut la conception, la constitution de la base de données et l’apprentissage [1]. Autrement dit, la donnée n’est pas une matière neutre que l’on branche à la fin. Elle fait partie du projet. L’ignorer revient à demander au modèle de compenser une organisation qui n’a pas décidé ce qui est vrai, à jour, autorisé ou risqué.

1 Un cas d’usage stable avant un corpus trop large.

5 Critères minimum : source, droit, fraîcheur, qualité, validation.

0 Donnée sensible envoyée dans un outil non validé.

Préparer ses données pour l’IA ne veut donc pas dire créer un grand programme data interminable. Cela veut dire réduire l’incertitude sur un périmètre précis. Une entreprise peut commencer petit, à condition de savoir exactement ce qu’elle autorise, ce qu’elle interdit et ce qu’elle veut mesurer.

Ce qu’une donnée prête pour l’IA veut dire

Une donnée prête pour l’IA n’est pas seulement une donnée propre. Une table sans doublons peut rester inutilisable si personne ne sait ce que signifie une colonne. Un dossier documentaire bien rangé peut rester dangereux si certaines versions sont périmées. Une base client riche peut être inutilisable dans un outil SaaS si les droits, les finalités ou les contrats ne permettent pas l’usage envisagé.

La donnée prête est celle que l’on peut rattacher à une décision. Elle répond à cinq questions simples : d’où vient-elle ? Qui la valide ? À quelle date a-t-elle été mise à jour ? Peut-on l’utiliser dans ce contexte ? Que se passe-t-il si l’IA se trompe à partir de cette donnée ? Sans ces réponses, la donnée nourrit le modèle, mais elle ne sécurise pas la décision.

01

Source nommée

Le document, la table ou le flux a une origine connue, pas seulement un emplacement dans un Drive.

02

Propriétaire métier

Une personne ou une équipe peut expliquer le sens, les limites et les exceptions.

03

Droit d’usage

Le traitement envisagé est compatible avec le RGPD, les contrats, la sécurité et les règles internes.

04

Fraîcheur visible

L’IA peut distinguer une procédure active, une archive, une hypothèse et une version remplacée.

05

Validation humaine

Le rôle de relecture est défini avant le pilote, surtout pour les sorties client, RH ou financières.

Cette grille paraît élémentaire. Elle évite pourtant le piège le plus courant : confondre volume et valeur. Une IA connectée à beaucoup de données n’est pas forcément plus utile. Elle est plus exposée si elle ne sait pas distinguer les documents fiables, les contenus sensibles, les brouillons et les exceptions.

Cartographier sans tout nettoyer

La cartographie data utile pour l’IA ne commence pas par un inventaire exhaustif. Elle commence par un cas d’usage. Un assistant qui répond aux commerciaux n’a pas besoin des mêmes sources qu’un outil qui prépare une synthèse juridique, qu’un moteur de support client ou qu’un agent capable d’agir dans le CRM. Le périmètre décide de la donnée utile.

La bonne méthode consiste à partir d’une question métier et à remonter vers les sources. Par exemple : « préparer une réponse à un appel d’offres », « résumer un ticket support complexe », « retrouver la bonne procédure interne », « identifier les comptes clients à risque », « contrôler la cohérence d’un devis ». Chaque cas révèle des sources nécessaires, des sources interdites et des trous de connaissance.

CRM

Historique commercial

Préparer une synthèse de compte, repérer une incohérence ou prioriser une relance. Contrôle clé : fraîcheur, propriétaire, droits d’accès et séparation prospect/client.

Support

Tickets et SAV

Qualifier les irritants, proposer une réponse ou détecter les sujets récurrents. Contrôle clé : données personnelles, tonalité client et validation humaine.

Docs

Documentation interne

Guider une procédure ou retrouver une version de référence. Contrôle clé : archives, contradictions, version active et propriétaire métier.

Risques

Contrats sensibles

Extraire des points d’attention sous contrôle ou préparer une relecture. Contrôle clé : confidentialité, base légale, accès restreint et traçabilité.

Cette cartographie a une vertu politique : elle force les métiers, la DSI, la conformité et la direction à nommer les arbitrages. La question n’est plus « y a-t-il assez de data ? ». Elle devient : « cette source peut-elle soutenir cette décision, dans ce contexte, avec ce contrôle ? ».

Qualifier la qualité utile, pas la perfection théorique

La qualité des données n’a de sens que par rapport à un usage. Un historique support peut être imparfait mais suffisant pour repérer des thèmes récurrents. Il peut être insuffisant pour générer une réponse client prête à envoyer. Une base produits peut aider à comparer des références, mais devenir risquée si les prix, les disponibilités ou les garanties ne sont pas synchronisés.

La CNIL déconseille d’entraîner un modèle sur des données dont la source est inconnue, non fiable ou dont la qualité, notamment l’annotation, n’a pas été vérifiée [2]. Ce principe vaut aussi pour les projets d’entreprise moins ambitieux qu’un entraînement de modèle. Si la source est mal comprise, l’IA ne fait que rendre le problème plus rapide et plus convaincant.

4

Questions suffisent souvent à qualifier un corpus avant un pilote : source, version, droit d’usage, conséquence d’erreur.

Source

Peut-on citer l’origine ?

Une réponse utile doit pouvoir remonter vers le document, la table ou la règle qui l’appuie.

Version

Est-ce encore valable ?

La fraîcheur doit être lisible, surtout pour les procédures, prix, contrats et politiques internes.

Risque

Que produit une erreur ?

Une erreur dans une veille interne, un devis, un dossier RH ou une réponse client n’a pas le même coût.

La préparation data devient alors un filtre de priorité. Les corrections utiles sont celles qui changent le résultat du pilote : retirer les sources non autorisées, marquer les archives, fusionner les doublons critiques, documenter les exceptions, ajouter des métadonnées simples ou nommer un validateur.

Droits, RGPD, AI Act et sécurité : ce qu’il faut cadrer avant l’outil

La préparation des données IA ne peut pas se limiter à la qualité documentaire. Elle doit intégrer le droit d’usage. Quand des données personnelles sont utilisées pour développer ou exploiter un système d’IA, la CNIL rappelle qu’il faut définir une finalité, déterminer les responsabilités, identifier une base légale et documenter les données utilisées [1] [3].

Le règlement européen sur l’IA ajoute un cadre par les risques, notamment pour les systèmes à haut risque, où les jeux de données d’entraînement, de validation et de test doivent faire l’objet de pratiques de gouvernance adaptées [4]. Le Data Act, applicable depuis le 12 septembre 2025, rappelle aussi que l’accès et l’usage des données s’inscrivent dans un cadre juridique plus large, notamment pour les données issues de produits connectés et de services numériques [5].

Il faut également éviter une erreur fréquente : supposer qu’un modèle entraîné sur des données personnelles devient automatiquement anonyme. L’EDPB souligne que cette conclusion doit être appréciée au cas par cas [6]. Pour une entreprise, cela signifie qu’un projet IA doit documenter ses données, ses finalités et ses contrôles, même lorsqu’il semble techniquement éloigné des personnes concernées.

01

Finalité

Décrire l’usage opérationnel, pas « utiliser l’IA » comme objectif générique.

02

Accès

Limiter les corpus et les utilisateurs selon le besoin réel du pilote.

03

Traçabilité

Conserver sources, prompts critiques, versions relues et décisions de validation.

04

Sécurité

Vérifier hébergement, journalisation, cloisonnement, supervision et réversibilité.

Sur le volet cyber, l’ANSSI recommande une approche par les risques pour les systèmes d’IA et publie des recommandations de sécurité pour les architectures d’IA générative [10] [11]. Le point pratique est simple : avant d’ouvrir un corpus à l’IA, il faut savoir où il sera traité, qui pourra le consulter, ce qui sera journalisé, et comment stopper ou corriger un usage problématique.

Les données à exclure du premier pilote

Un bon pilote IA ne commence pas par le corpus le plus spectaculaire. Il commence par un corpus suffisamment utile et suffisamment maîtrisé. Certaines données peuvent être stratégiques, mais trop risquées pour un premier test : pièces RH nominatives, documents de santé, litiges, secrets clients, contrats sensibles, informations financières non stabilisées ou échanges internes où cohabitent brouillons, opinions et décisions validées.

Exclure ces données au départ n’est pas un manque d’ambition. C’est une manière de protéger le projet. Une première expérimentation doit apprendre à l’organisation comment l’IA répond, où elle se trompe, comment les utilisateurs reprennent ses sorties et quelles sources améliorent vraiment la qualité. Ajouter trop tôt des données sensibles rend le test plus lourd, plus lent et plus difficile à interpréter.

01

Données sans droit clair

Si la finalité, la base légale ou le contrat ne sont pas établis, la donnée reste hors pilote.

02

Données trop sensibles

RH, santé, litiges, secrets clients ou éléments financiers critiques demandent un cadrage séparé.

03

Sources contradictoires

Deux procédures opposées donnent au modèle une réponse plausible, pas une décision fiable.

04

Archives non marquées

Une archive utile pour comprendre l’historique peut devenir dangereuse si l’IA la traite comme active.

05

Flux non journalisés

Si personne ne peut retracer l’accès, la réponse ou la correction, le pilote perd sa valeur probatoire.

Cette règle rejoint les recommandations de sécurité et de gouvernance : il faut connaître les limites du système, surveiller l’évolution des données, encadrer les accès et prévoir les mesures organisationnelles adaptées [2] [10]. Le premier pilote doit donc être volontairement étroit. Sa réussite ne se mesure pas à la quantité de données ouvertes, mais à la clarté de ce que l’entreprise apprend.

Choisir RAG, automatisation ou agent selon la maturité des données

Le choix technique vient après le cadrage des données. Un RAG peut être pertinent si l’entreprise veut interroger un corpus documentaire sélectionné et obtenir des réponses sourcées. Une automatisation peut être pertinente si le flux est stable et les exceptions connues. Un agent devient envisageable seulement si le périmètre d’action est borné, journalisé, réversible et validé par les métiers.

Le NIST AI RMF invite les organisations à intégrer les considérations de fiabilité, de risques et de gouvernance dans la conception, le développement, l’usage et l’évaluation des systèmes d’IA [7]. Son profil IA générative insiste aussi sur la documentation, l’évaluation et la gestion des risques propres aux usages génératifs [8]. Pour une PME ou une ETI, cette logique se traduit par une règle claire : ne pas donner plus d’autonomie à l’IA que les données ne peuvent en supporter.

RAG

Interroger des sources

Adapté quand l’objectif est de retrouver, synthétiser et citer des documents internes validés.

Flux

Automatiser une étape

Adapté quand les règles sont stables, les exceptions connues et la reprise humaine définie.

Agent

Autoriser une action

Adapté seulement si les droits, la journalisation, les seuils d’arrêt et la réversibilité sont prêts.

Cette distinction évite de surdimensionner le premier projet. Beaucoup d’entreprises n’ont pas besoin d’un agent autonome pour commencer. Elles ont besoin d’un corpus fiable, d’une interface simple, d’un mode de citation, d’un responsable métier et d’un indicateur de réussite.

Construire un pilote mesurable au lieu d’une démonstration séduisante

Un pilote IA peut impressionner en réunion et rester inutile en production. Pour éviter ce piège, il faut mesurer autre chose que la qualité apparente d’une démo. Les indicateurs utiles sont plus concrets : temps de recherche réduit, taux de reprise humaine, erreurs détectées, réponses rejetées, cas hors périmètre, satisfaction des utilisateurs et effet sur une décision métier.

Les principes de l’OCDE rappellent que les systèmes d’IA doivent être robustes, sûrs et sécurisés tout au long de leur cycle de vie, avec des mécanismes de gestion des risques, de traçabilité et de correction lorsque nécessaire [9]. Dans une entreprise, cela implique de prévoir dès le pilote ce qui sera observé, corrigé ou arrêté.

Semaine 1

Choisir le cas d’usage

Un flux répétable, un propriétaire métier, une décision claire et un niveau de risque acceptable.

Semaine 2

Préparer le corpus

Sources autorisées, archives exclues, droits clarifiés, versions utiles et exceptions connues.

Semaine 3

Tester en conditions réelles

Mesurer les reprises, les erreurs, les gains, les cas hors périmètre et la qualité perçue.

Le pilote doit produire une décision de direction : industrialiser, corriger, réduire le périmètre ou arrêter. Sans cette décision, l’entreprise accumule des expérimentations IA et continue d’ignorer la dette data qui empêche le passage à l’échelle. McKinsey souligne d’ailleurs que la montée en puissance de l’IA générative accentue la pression sur les organisations pour construire une entreprise réellement pilotée par les données [12].

Plan d’action en 90 jours pour préparer les données IA

La préparation des données n’a pas besoin d’être parfaite pour être utile. Elle doit être suffisante pour un premier cas à valeur. Le bon plan tient en trois mouvements : choisir un usage, qualifier le corpus, puis décider ce que le pilote prouve réellement.

Jours 1 à 30 : cadrer

Identifier un cas d’usage précis, les utilisateurs concernés, la décision attendue, les sources nécessaires, les sources interdites et les risques visibles. À ce stade, l’enjeu n’est pas l’outil, mais le périmètre.

Jours 31 à 60 : préparer

Classer les données, marquer les versions, retirer les archives dangereuses, nommer les propriétaires, définir les droits d’accès et préparer un jeu de tests réaliste.

Jours 61 à 90 : mesurer

Lancer le pilote sur un flux limité, suivre les reprises humaines, documenter les erreurs, ajuster les sources et décider si le projet mérite une extension.

Décision : continuer ou arrêter

Une bonne préparation data ne force pas la publication d’un projet IA. Elle donne à la direction les éléments pour investir, réduire le périmètre ou arrêter proprement.

Ce travail rejoint naturellement un audit IA lorsqu’une direction veut passer d’idées dispersées à une feuille de route réaliste. L’audit ne remplace pas la DSI, le DPO ou le RSSI. Il aide à formuler les bons usages, à nommer les risques et à construire une trajectoire qui ne confond pas expérimentation et mise en production.

Questions fréquentes

Qu’est-ce qu’une donnée prête pour l’IA ?

Une donnée prête pour l’IA est compréhensible, à jour, rattachée à une source, juridiquement utilisable et reliée à un responsable métier. Elle n’est pas seulement propre : elle est exploitable sans faire porter au modèle une responsabilité qu’il ne peut pas assumer.

Faut-il nettoyer toutes les données avant de lancer un projet IA ?

Non. Vouloir tout nettoyer avant d’agir bloque souvent le projet. Il vaut mieux partir d’un cas d’usage précis, identifier les sources nécessaires, puis corriger seulement les écarts qui empêchent une réponse fiable, vérifiable et conforme.

Quelle différence entre données internes, sensibles et interdites ?

Les données internes peuvent rester utilisables dans un environnement maîtrisé. Les données sensibles exigent des règles d’accès, de minimisation et de validation plus strictes. Les données interdites sont celles que l’entreprise ne doit pas exposer dans l’outil choisi, faute de base légale, de contrat, de sécurité ou d’accord interne.

Le RAG évite-t-il de préparer les données ?

Non. Le RAG aide à interroger des sources sélectionnées et à citer des documents, mais il amplifie aussi les défauts de corpus : versions obsolètes, doublons, droits mal posés, sources contradictoires. La préparation reste nécessaire.

Qui doit piloter la préparation des données IA ?

Le métier doit définir le sens et le niveau de risque, la DSI ou l’équipe data doit sécuriser l’accès et la traçabilité, et la conformité doit intervenir quand des données personnelles, RH, financières ou contractuelles sont concernées.

Quel premier livrable demander avant un pilote IA ?

Le livrable utile est une cartographie courte : cas d’usage, sources autorisées, sources exclues, qualité attendue, propriétaire métier, risques, mode de validation humaine et indicateur de réussite. Sans cela, le pilote mesure surtout l’enthousiasme.

Sources et références

[1] CNIL — Développement des systèmes d’IA : les recommandations de la CNIL pour respecter le RGPD
[2] CNIL — Sécurité : Intelligence artificielle - conception et apprentissage
[3] CNIL — Développement des systèmes d’IA : que faut-il vérifier ?
[4] Union européenne — Règlement (UE) 2024/1689 établissant des règles harmonisées concernant l’intelligence artificielle
[5] Commission européenne — Data Act
[6] EDPB — Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models
[7] NIST — AI Risk Management Framework
[8] NIST — Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile
[9] OCDE — AI Principles
[10] ANSSI — Recommandations de sécurité pour un système d’IA générative
[11] ANSSI — Développer la confiance dans l’IA par une approche par les risques cyber
[12] McKinsey — Charting a path to the data- and AI-driven enterprise of 2030

Ce sujet concerne votre organisation ? Un premier échange de 15 minutes permet d’évaluer la situation et de décider de la suite.

Échanger avec Raphaël Uhlrich

Sans engagement · 15 min · Strasbourg ou visio