Processus de pseudonymisation - Comment Ed.ai protège l'identité de vos élèves
Processus de pseudonymisation - Comment Ed.ai protège l'identité de vos élèves
Processus de pseudonymisation - Comment Ed.ai protège l'identité de vos élèves
Lorsqu'un enseignant importe une copie d'élève dans Ed.ai (photo ou scan), cette copie contient naturellement le nom et le prénom de l'élève, inscrits à la main sur la feuille. Si cette image était directement envoyée à un modèle d'IA pour correction, le modèle recevrait ces informations identifiantes.
Ed.ai a développé un processus en amont de toute la chaîne de traitement IA, qui garantit que les données identifiantes sont masquées avant toute transcription ou analyse.
Dès l'import de la copie, un modèle d'IA dédié (distinct des modèles de correction) analyse l'image pour détecter les zones contenant des informations identifiantes : nom, prénom, et tout autre élément d'identification de l'élève présent sur la copie.
Les zones identifiées sont recouvertes de pixels blancs directement sur l'image. Ce masquage est irréversible sur l'image traitée : les informations originales ne peuvent pas être reconstituées à partir de l'image pseudonymisée.
L'image pseudonymisée est ensuite transcrite numériquement (OCR / reconnaissance de texte). Le contenu textuel obtenu ne contient plus les informations identifiantes de l'élève.
Le contenu transcrit et pseudonymisé est envoyé aux modèles d'IA (Azure OpenAI, Azure Claude, Azure Mistral) pour la correction, l'analyse ou la génération d'activités. Les modèles d'IA ne reçoivent donc jamais les noms des élèves.
Photo/Scan de la copie (nom visible)
↓ IA de detection
Masquage par pixels blancs (nom masque)
↓ OCR
Transcription numerique (nom absent du texte)
↓ LLM
Correction / Analyse / Remediation (nom absent)
Le masquage intervient AVANT la transcription. Ce n'est pas un filtre appliqué après coup sur du texte : le masquage opère directement sur l'image, avant toute extraction de contenu. Les modèles d'IA de correction ne voient jamais l'image originale.
L'image originale reste disponible pour l'enseignant. Le masquage est appliqué sur une copie de travail utilisée par le pipeline IA. L'enseignant conserve l'accès à l'image originale dans son interface Ed.ai pour sa propre consultation.
Le processus est automatique et systématique. Il s'applique à chaque copie importée, sans action requise de l'enseignant.
Via le GAR, la pseudonymisation est double. Les identifiants transmis par le GAR sont déjà pseudonymisés par le Gestionnaire d'Accès aux Ressources. Le masquage par pixels blancs ajoute une couche supplémentaire en traitant les noms manuscrits sur les copies.
De septembre à décembre 2024, l'équipe Ed.ai basée à Lyon a procédé à une revue humaine de 100% des copies traitées par le processus de pseudonymisation. Cette campagne de vérification avait pour objectif de mesurer la fiabilité du système en conditions réelles d'utilisation.
Résultat : un taux de succès supérieur à 99,9%. Cela signifie que moins d'une copie sur 1 000 présente un défaut de masquage. Cette performance s'inscrit dans un ensemble de garanties complémentaires (non-rétention des données par les fournisseurs LLM, non-utilisation pour l'entraînement, hébergement intégralement en UE) qui assurent une protection robuste même dans les cas résiduels où le masquage serait imparfait.
Ce taux de succès très élevé ne dispense pas des autres mesures de protection qui restent en place :
Non-rétention des données par les fournisseurs LLM (aucune donnée conservée après traitement).
Non-utilisation pour l'entraînement des modèles d'IA.
Hébergement et traitement intégralement en UE via Microsoft Azure.
Supervision humaine systématique par l'enseignant.
Notre technologie de pseudonymisation est en développement actif depuis plus de 18 mois et a connu une évolution significative.
Le système initial reposait principalement sur de la computer vision traditionnelle, entraînée sur des jeux de données dédiés de copies scolaires annotées. Ce modèle identifiait les zones de texte correspondant aux noms et prénoms par reconnaissance de motifs visuels (position sur la page, taille de la zone, etc.).
Entre septembre 2024 et mars 2025, Ed.ai a progressivement migré vers des modèles de Vision-Language (VLM) open source, hébergés sur des serveurs dédiés au sein de notre infrastructure. Ces modèles, qui combinent la compréhension visuelle et la compréhension du langage, se sont révélés significativement plus performants et plus fiables pour la détection des informations identifiantes dans des contextes variés (écritures manuscrites très différentes, positions inhabituelles du nom sur la copie, etc.).
Ce domaine étant en évolution rapide, nous nous réservons la possibilité de mettre à jour fréquemment le modèle open source sous-jacent afin de maximiser la performance de la pseudonymisation. Chaque mise à jour fait l'objet de tests de régression pour garantir que le taux de fiabilité reste au moins égal à celui mesuré précédemment.
Point important pour la conformité : Le modèle de pseudonymisation étant hébergé sur nos propres serveurs dédiés, les images des copies ne quittent pas notre infrastructure pour cette étape. Le masquage s'effectue en interne, avant tout envoi vers les API de correction.
Pour toute question sur notre processus de pseudonymisation, contactez dpo@ed.ai.