Vous avez des contrats, des échanges clients, des dossiers RH, des rapports internes… et vous vous dites :
« L’IA pourrait vraiment m’aider à les analyser, les résumer ou en extraire l’essentiel… mais je ne peux pas me permettre d’envoyer ces infos telles quelles sur un service externe. »
C’est exactement là qu’intervient l’anonymisation (suppression des identifiants) et la pseudonymisation (remplacement par des codes). L’objectif : permettre au LLM de travailler sur la structure et le contenu de vos données, sans exposer les informations qui permettent d’identifier une personne, un client ou un projet spécifique.
Dans ce deuxième article de la série, nous allons voir comment mettre en place, de manière concrète, un filtre IA qui protège vos données avant qu’elles ne quittent votre environnement.
Le rôle du pré-traitement des données avant l’IA
Dans l’article précédent, nous avons vu l’importance du principe du “minimum nécessaire” : ne jamais envoyer plus de données que ce qui est nécessaire pour répondre à une question.
Le pré-traitement des données, c’est :
- nettoyer : retirer les éléments inutiles (logos, signatures, mentions redondantes) ;
- structurer : découper le document en parties logiques ;
- protéger : anonymiser et pseudonymiser ce qui doit l’être.
Ce pré-traitement se fait dans votre conteneur privé, avant toute communication avec un LLM. Il permet de transformer un document brut en version “IA-safe”, c’est-à-dire exploitable par l’IA, mais débarrassée d’une grande partie des éléments sensibles.
Anonymisation : supprimer les identifiants
L’anonymisation consiste à supprimer les informations qui permettent d’identifier directement une personne ou une entité.
Par exemple :
- “Jean Tremblay” → “Employé 1”
- “Sophie Martin” → “Gestionnaire”
- “1250, rue Sainte-Catherine Ouest, Montréal” → “Adresse du siège social”
- “514 555-1234” → “Numéro de téléphone”
On peut également retirer :
- les numéros de carte bancaire,
- les adresses e-mail,
- les numéros de compte,
- certains identifiants internes.
L’idée est simple : même si le texte fuitait, il ne permettrait pas de revenir facilement à une personne ou une entreprise précise.
Cette anonymisation peut se faire de manière :
- règle-based : à l’aide de règles (par exemple via des expressions régulières) pour détecter des numéros, des e-mails, etc. ;
- semi-automatique : en combinant détection automatique (reconnaissance d’entités nommées) et validation humaine sur des documents critiques.
Pseudonymisation : conserver la structure sans révéler les identités
La pseudonymisation est une approche plus fine : au lieu de supprimer les informations, on les remplace par des codes cohérents.
Par exemple :
- “Banque Nationale du Canada” → “CLIENT_A”
- “Projet Horizon 2026” → “PROJET_X”
- “Système de facturation interne” → “APPLICATION_INTERNE_1”
Vous conservez une table de correspondance dans votre conteneur privé (et uniquement là). Le LLM, lui, ne voit que les codes.
L’avantage est double :
- Vous protégez les identités réelles.
- Vous gardez la possibilité d’interpréter la réponse dans votre contexte réel par la suite, en re-croisant avec vos données internes.
Cette approche est particulièrement utile lorsque :
- vous analysez des séries de documents liés au même client ;
- vous étudiez des cas d’usage récurrents ;
- vous voulez comparer des projets ou des filiales sans exposer leurs noms.
Mettre en place un “filtre IA” en amont
Pour rendre cela exploitable au quotidien, l’idée est d’installer un “filtre IA” qui s’active automatiquement chaque fois qu’un texte doit être envoyé à un LLM.
Ce filtre peut comporter plusieurs couches :
- Détection des données sensibles
- Noms, adresses, e-mails ;
- Numéros de téléphone, de compte, d’assurance, etc. ;
- Noms d’entreprises ou de projets stratégiques.
On peut s’appuyer sur :- des algorithmes de reconnaissance d’entités nommées (NLP) ;
- des règles personnalisées adaptées à votre secteur.
- Transformation
- Suppression pure et simple (anonymisation) ;
- ou remplacement par un code (pseudonymisation).
- Contrôles supplémentaires
- Vérifier que certains mots-clés critiques ne sortent jamais (noms de projets secrets, noms de partenaires sensibles, etc.) ;
- Rejeter la requête si elle contient des éléments qui ne doivent jamais être envoyés.
- Journalisation
- Conserver une trace de ce qui a été filtré ;
- Permettre d’auditer les traitements a posteriori.
Pour l’utilisateur final, tout cela peut rester invisible : il pose sa question depuis une application interne, le texte passe par le filtre, puis seulement ensuite il est envoyé au LLM.
Illustrations concrètes
Exemple 1 : Analyse de contrat
Vous voulez :
“Résumer les risques principaux pour le fournisseur dans ce contrat.”
Processus :
- Le contrat est importé dans le conteneur privé.
- Le filtre retire :
- les coordonnées complètes des parties ;
- les montants précis ;
- les numéros de compte.
- Les noms des parties sont remplacés par “FOURNISSEUR” et “CLIENT”.
- Seules les clauses pertinentes (responsabilités, pénalités, garanties) sont envoyées au LLM.
- Le LLM renvoie un résumé des risques, que vous pouvez ensuite mettre en perspective avec vos données réelles.
Exemple 2 : Support client
Vous avez des tickets de support contenant des descriptions de problèmes clients, parfois avec des informations personnelles.
Vous souhaitez que l’IA :
“Propose un résumé du problème et une solution type.”
Le filtre :
- remplace les noms de clients par “CLIENT_X” ;
- supprime les numéros de téléphone, e-mails, adresses ;
- conserve la description technique du problème et le contexte fonctionnel.
Le LLM travaille sur le contenu fonctionnel, pas sur les personnes.
Limites et bonnes pratiques
L’anonymisation n’est pas magique. Quelques points d’attention :
- Certains cas sont tellement spécifiques qu’on peut deviner l’entreprise ou la personne, même sans nom ni adresse.
- Un texte peut contenir des informations “indirectement identifiantes” (combinaison de détails uniques).
- Une anonymisation automatique à 100 % parfaite est difficile : il faut souvent un mélange d’automatisation et de gouvernance.
Bonnes pratiques à mettre en place :
- Définir ce qui est considéré comme donnée sensible dans votre organisation.
- Documenter les règles d’anonymisation/pseudonymisation.
- Former les équipes sur ce qu’elles peuvent ou ne peuvent pas envoyer à l’IA, même via les systèmes internes.
- Impliquer vos personnes clés (direction, juridique, TI) dès la conception.
Conclusion : l’anonymisation, première barrière de sécurité
Anonymiser et pseudonymiser vos données avant de les envoyer à un LLM est une brique essentielle pour concilier :
- exploitation de l’IA,
- protection des informations sensibles,
- respect de vos engagements contractuels et réglementaires.
Ce filtre IA, intégré dans un pipeline automatisé, vous permet de mettre l’IA au service de vos équipes, sans exposer inutilement vos contrats, vos clients ou vos collaborateurs.
Dans le troisième article de cette série, nous verrons comment aller plus loin avec les embeddings et les bases vectorielles : une manière de faire travailler l’IA sur de grands volumes de documents, tout en n’envoyant que de petits extraits pertinents et déjà sécurisés.
Chez 8P Design, nous aidons les PME à industrialiser ce type de filtrage, à l’intégrer dans leurs applications internes (intranet, CRM, portails clients, etc.) et à définir des règles claires d’usage de l’IA.
Si vous souhaitez discuter d’un cas concret (analyse de contrats, support client, rapports internes), nous pouvons vous accompagner dans la conception et la mise en place de ce filtre IA.