Processus de pseudonymisation - Comment Ed.ai protège l'identité de vos élèves

Ed.ai intègre un processus de pseudonymisation automatique qui garantit que les modèles d'intelligence artificielle ne reçoivent jamais les noms ni les informations identifiantes de vos élèves.

Le problème

Lorsqu'un enseignant importe une copie d'élève dans Ed.ai (photo ou scan), cette copie contient naturellement le nom et le prénom de l'élève, inscrits à la main sur la feuille. Si cette image était directement envoyée à un modèle d'IA pour correction, le modèle recevrait ces informations identifiantes.

Notre solution : la pseudonymisation par pixels blancs

Ed.ai a développé un processus en amont de toute la chaîne de traitement IA, qui garantit que les données identifiantes sont masquées avant toute transcription ou analyse.

Étape 1 - Détection des zones identifiantes

Dès l'import de la copie, un modèle d'IA dédié (distinct des modèles de correction) analyse l'image pour détecter les zones contenant des informations identifiantes : nom, prénom, et tout autre élément d'identification de l'élève présent sur la copie.

Étape 2 - Masquage par pixels blancs

Les zones identifiées sont recouvertes de pixels blancs directement sur l'image. Ce masquage est irréversible sur l'image traitée : les informations originales ne peuvent pas être reconstituées à partir de l'image pseudonymisée.

Étape 3 - Transcription numérique

L'image pseudonymisée est ensuite transcrite numériquement (OCR / reconnaissance de texte). Le contenu textuel obtenu ne contient plus les informations identifiantes de l'élève.

Étape 4 - Traitement par le pipeline IA

Le contenu transcrit et pseudonymisé est envoyé aux modèles d'IA (Azure OpenAI, Azure Claude, Azure Mistral) pour la correction, l'analyse ou la génération d'activités. Les modèles d'IA ne reçoivent donc jamais les noms des élèves.

Schema du processus

Photo/Scan de la copie (nom visible)

↓ IA de detection

Masquage par pixels blancs (nom masque)

↓ OCR

Transcription numerique (nom absent du texte)

↓ LLM

Correction / Analyse / Remediation (nom absent)

Points clés

Le masquage intervient AVANT la transcription. Ce n'est pas un filtre appliqué après coup sur du texte : le masquage opère directement sur l'image, avant toute extraction de contenu. Les modèles d'IA de correction ne voient jamais l'image originale.

L'image originale reste disponible pour l'enseignant. Le masquage est appliqué sur une copie de travail utilisée par le pipeline IA. L'enseignant conserve l'accès à l'image originale dans son interface Ed.ai pour sa propre consultation.

Le processus est automatique et systématique. Il s'applique à chaque copie importée, sans action requise de l'enseignant.

Via le GAR, la pseudonymisation est double. Les identifiants transmis par le GAR sont déjà pseudonymisés par le Gestionnaire d'Accès aux Ressources. Le masquage par pixels blancs ajoute une couche supplémentaire en traitant les noms manuscrits sur les copies.

Fiabilité et stress test

Vérification humaine exhaustive

De septembre à décembre 2024, l'équipe Ed.ai basée à Lyon a procédé à une revue humaine de 100% des copies traitées par le processus de pseudonymisation. Cette campagne de vérification avait pour objectif de mesurer la fiabilité du système en conditions réelles d'utilisation.

Résultat : un taux de succès supérieur à 99,9%. Cela signifie que moins d'une copie sur 1 000 présente un défaut de masquage. Cette performance s'inscrit dans un ensemble de garanties complémentaires (non-rétention des données par les fournisseurs LLM, non-utilisation pour l'entraînement, hébergement intégralement en UE) qui assurent une protection robuste même dans les cas résiduels où le masquage serait imparfait.

Garanties complémentaires

Ce taux de succès très élevé ne dispense pas des autres mesures de protection qui restent en place :

Non-rétention des données par les fournisseurs LLM (aucune donnée conservée après traitement).
Non-utilisation pour l'entraînement des modèles d'IA.
Hébergement et traitement intégralement en UE via Microsoft Azure.
Supervision humaine systématique par l'enseignant.

Évolution technologique du modèle de pseudonymisation

Notre technologie de pseudonymisation est en développement actif depuis plus de 18 mois et a connu une évolution significative.

Première génération (2024) - Approche hybride

Le système initial reposait principalement sur de la computer vision traditionnelle, entraînée sur des jeux de données dédiés de copies scolaires annotées. Ce modèle identifiait les zones de texte correspondant aux noms et prénoms par reconnaissance de motifs visuels (position sur la page, taille de la zone, etc.).

Génération actuelle (depuis fin 2024) - Modèles de Vision-Language open source

Entre septembre 2024 et mars 2025, Ed.ai a progressivement migré vers des modèles de Vision-Language (VLM) open source, hébergés sur des serveurs dédiés au sein de notre infrastructure. Ces modèles, qui combinent la compréhension visuelle et la compréhension du langage, se sont révélés significativement plus performants et plus fiables pour la détection des informations identifiantes dans des contextes variés (écritures manuscrites très différentes, positions inhabituelles du nom sur la copie, etc.).

Amélioration continue

Ce domaine étant en évolution rapide, nous nous réservons la possibilité de mettre à jour fréquemment le modèle open source sous-jacent afin de maximiser la performance de la pseudonymisation. Chaque mise à jour fait l'objet de tests de régression pour garantir que le taux de fiabilité reste au moins égal à celui mesuré précédemment.

Point important pour la conformité : Le modèle de pseudonymisation étant hébergé sur nos propres serveurs dédiés, les images des copies ne quittent pas notre infrastructure pour cette étape. Le masquage s'effectue en interne, avant tout envoi vers les API de correction.

Pour toute question sur notre processus de pseudonymisation, contactez dpo@ed.ai.

AI grading

Actionable Insights

Tailor Learning Paths

AI Assistant

Instant onboarding 🚀