Vous avez des dizaines, des centaines, parfois des milliers de documents : contrats, procédures, rapports, fiches produits, contenus de site web, historiques de support. Vous savez que ces informations sont précieuses, mais vos équipes n’ont pas le temps de tout lire.

Vous aimeriez que l’IA réponde à des questions comme :

“Quelles sont les conditions de résiliation dans nos contrats types ?”
“Quelles sont les principales objections des clients sur les 6 derniers mois ?”
“Quels points reviennent le plus souvent dans les rapports trimestriels ?”

… sans pour autant envoyer l’intégralité de vos documents à un LLM.

C’est là qu’interviennent les embeddings (représentations numériques de textes) et les bases vectorielles. Dans ce troisième article, nous allons les expliquer de manière accessible et montrer comment ils participent à une architecture IA sécurisée.

C’est quoi un embedding (en termes simples) ?

Un embedding, c’est une manière de représenter un texte (un mot, une phrase, un paragraphe) sous la forme d’une liste de nombres. On parle de “vecteur”.

Ce vecteur est construit de façon à ce que :

deux textes qui parlent d’un sujet similaire aient des vecteurs proches ;
deux textes qui n’ont rien à voir aient des vecteurs éloignés.

On peut voir ça comme une empreinte numérique du sens d’un texte.

Par exemple, les phrases :

“résilier un contrat”
“mettre fin à l’entente”
“terminer l’accord”

auront des embeddings relativement proches, car elles expriment la même idée.
Cela permet de rechercher du texte non pas seulement par mots-clés, mais par proximité de sens.

Bases vectorielles : votre “bibliothèque IA” interne

Une base vectorielle est une base de données spécialisée pour stocker ces vecteurs (embeddings) et faire des recherches rapides dedans.

Voici comment cela s’applique à vos documents :

Vous découpez vos documents en petits morceaux (par exemple des paragraphes ou des sections).
Pour chaque morceau, vous générez un embedding.
Vous stockez dans la base vectorielle :
- le vecteur (la liste de nombres),
- le texte correspondant,
- quelques métadonnées (type de document, date, auteur, etc.).

Plus tard, quand un utilisateur pose une question, le système :

transforme la question en embedding ;
cherche dans la base vectorielle les vecteurs les plus proches ;
récupère les morceaux de documents les plus pertinents par rapport à la question.

C’est une manière très efficace de naviguer dans une grande masse de textes, sans que l’IA ait besoin de lire tous vos documents à chaque fois.

RAG : d’abord retrouver, ensuite générer

Cette approche est au cœur d’un schéma de plus en plus répandu appelé RAG (Retrieval-Augmented Generation).

Le principe :

Retrieval (recherche)
Le système retrouve les passages pertinents dans vos documents internes, via la base vectorielle.
Augmented Generation (génération augmentée)
On envoie au LLM :
- la question de l’utilisateur,
- plus quelques extraits de documents trouvés (par exemple les 3 à 5 meilleurs).

Le LLM génère alors une réponse en se basant sur ces extraits. Il n’a pas besoin d’avoir “avalé” vos documents pour savoir quoi répondre. Il se contente de travailler sur le contexte que vous lui fournissez.

C’est très puissant pour :

créer des assistants internes qui répondent à partir de vos procédures et documents ;
outiller le support client avec des réponses basées sur votre base de connaissances ;
aider les équipes à explorer des rapports financiers, des études, des archives.

Confidentialité : pourquoi c’est intéressant pour vos données sensibles

Du point de vue de la confidentialité, embeddings + base vectorielle + RAG offrent plusieurs avantages :

Vos documents complets restent dans votre conteneur privé ou vos systèmes internes.
Le LLM ne voit que des extraits ciblés, choisis en fonction de la question.
Vous pouvez appliquer les mêmes règles d’anonymisation/pseudonymisation vues dans l’article 2 :
- avant de générer les embeddings,
- et/ou au moment d’envoyer les extraits au LLM.

Vous pouvez également exclure certains types de contenu du pipeline (documents trop sensibles, informations juridiques critiques, dossiers RH détaillés, etc.).

L’IA devient alors une interface intelligente vers vos données, sans jamais disposer d’un accès brut à toute votre base documentaire.

Exemple de pipeline complet avec embeddings

Reprenons un exemple concret pour une PME.

Objectif

Mettre en place un assistant interne qui répond aux questions des équipes à partir de :

contrats types,
procédures internes,
documentation produit,
FAQ support.

Étapes

Ingestion des documents
Les documents sont importés dans un conteneur privé (via connecteurs, intégration à votre CMS, stockage cloud, etc.).
Nettoyage & découpage
Chaque document est :
- converti en texte brut,
- découpé en paragraphes ou sections logiques.
Anonymisation / pseudonymisation
On applique les règles de filtrage :
- suppression ou remplacement des noms, adresses, identifiants ;
- exclusion de certains documents trop sensibles.
Génération des embeddings
Pour chaque paragraphe :
- on calcule un embedding (représentation numérique du texte),
- on stocke l’embedding dans une base vectorielle privée avec :
  - le texte anonymisé,
  - des métadonnées (type de document, date, langue, etc.).
Question d’un utilisateur
Depuis une application interne (chatbot sur l’intranet, module intégré à un CRM, etc.), un utilisateur pose une question en langage naturel.
Recherche sémantique
La question est transformée en embedding.
La base vectorielle renvoie les passages les plus proches (les plus pertinents).
Appel au LLM
Le système envoie au LLM :
- la question de l’utilisateur,
- les passages de texte sélectionnés (anonymisés).
Le LLM génère une réponse structurée, par exemple :
- un résumé,
- une liste de points clés,
- une explication adaptée.
Restitution et journalisation
La réponse est affichée dans l’application interne.
On journalise ce qui a été envoyé au LLM, pour audit et amélioration.

Bonnes pratiques pour un système RAG sécurisé

Pour que ce type de système reste robuste et sécuritaire :

Séparer clairement les rôles
- Stockage des données (vos systèmes internes),
- Traitement et filtrage (conteneur privé),
- IA externe (LLM).
Maîtriser les accès
- Qui peut interroger quelles données ?
- Quels types de documents sont indexés ou non ?
Contrôler les logs
- Ne pas loguer inutilement des données sensibles dans des outils externes.
- Garder les journaux techniques dans votre environnement contrôlé.
Mettre à jour régulièrement
- Ajout de nouveaux documents,
- Nettoyage de l’index,
- Ajustement des règles d’anonymisation.
Tester avec des cas réels
- Scénarios de questions courantes,
- Vérification des réponses,
- Ajustement des filtres.

Conclusion : combiner architecture, anonymisation et embeddings

Avec ces trois articles, nous avons vu qu’il est possible de :

Utiliser les LLM sans exposer toute votre base de connaissances (architecture avec conteneurs privés).
Protéger vos informations sensibles grâce à l’anonymisation et la pseudonymisation.
Faire travailler l’IA sur de grands volumes de documents avec les embeddings et les bases vectorielles, sans envoyer l’intégralité de vos contenus.

Pour une PME au Québec, l’enjeu n’est plus de savoir si l’IA peut être utilisée, mais comment l’intégrer de manière sécurisée et utile dans vos logiciels internes, vos applications internes, vos sites web ou vos processus.

Chez 8P Design, nous aidons les organisations à :

définir leur stratégie IA appliquée à leurs données ;
concevoir des pipelines sécurisés (conteneurs privés, filtres, embeddings, RAG) ;
intégrer ces capacités dans des interfaces concrètes : intranet, portail client, outils internes, sites Drupal ou WordPress.

Si vous envisagez d’exploiter vos données d’entreprise avec l’IA, cette série peut être un point de départ pour structurer votre réflexion.
Et si vous souhaitez passer à l’action, nous pouvons vous accompagner pour concevoir et déployer une solution adaptée à votre réalité.

Embeddings et bases vectorielles : faire travailler les LLM sur vos données sans les exposer