TOLERANT Match Pseudonymisation

Si des caractéristiques personnelles – par exemple le nom, l’adresse, le numéro de téléphone – sont remplacées par des pseudonymes, des ensembles de données similaires ne sont plus reconnus par les méthodes actuelles, même en cas de différences mineures. TOLERANT Software fournit une solution pour la recherche floue sur des données entièrement pseudonymisées. Vous trouverez alors par exemple Stefan ~ Stephan, bien que les données indiquent 43Y…OP3 ou 09K…L1R.

Vérifier la qualité des données dans les données pseudonymisées

Extension pour TOLERANT Match

TOLERANT Match est notre produit standard pour une recherche de clients et une détection des doublons rapides et fiables dans de grandes bases de données. Nous avons intégré une procédure décrite dans la littérature sous le titre « Privacy preserving record linkage », qui est désormais disponible en plus d’autres procédures de comparaison. Les utilisateurs de TOLERANT Match pourront à l’avenir combiner facilement la recherche pseudonymisée et la recherche non pseudonymisée dans une comparaison.

Outil de prétraitement

Un outil autonome de prétraitement des données a été développé pour la pseudonymisation des données. Il permet à une partie A (fournisseur de données) d’effectuer la pseudonymisation et de transmettre les données ainsi pseudonymisées à une partie B pour traitement ultérieur. Il est également possible d’envisager un traitement des données pseudonymisées par un prestataire de services, dans lequel le traitement des données lui-même a lieu sur un territoire « neutre ». Pour les demandes individuelles, un proxy de pseudonymisation peut se charger de cette tâche.

Mode batch ou mode service

TOLERANT Match propose deux modes d’utilisation fondamentaux, qui sont également disponibles pour les caractéristiques pseudonymisées. Le mode batch permet de comparer rapidement de grands ensembles de données. Des interrogations individuelles sont possibles en mode service, qui peuvent ensuite être utilisées par exemple pour la saisie interactive des données. Avec « TOLERANT Match / Pseudonymisation », les scénarios d’application suivants peuvent être mis en œuvre.

Scénarios d’application

Listes de blocage pour les clients supprimés

Les entreprises doivent répondre aux demandes de suppression de clients. Toutefois, une mise en œuvre littérale signifie que l’entreprise ne peut pas enregistrer l’information selon laquelle le client ne souhaite plus être contacté. Il se peut donc que le client reçoive à l’avenir du courrier non sollicité. Une solution serait d’ajouter les données du client sous forme anonyme à une liste de blocage et d’utiliser cette liste pour vérifier les futurs courriers. Avec les procédures actuelles, cette vérification n’est toutefois pas tolérante aux erreurs. Il suffit d’une petite différence dans l’orthographe du nom ou de l’adresse pour que le client ne soit pas trouvé sur la liste de blocage.

Vérification par rapport aux listes de sanctions ou PEP

Les réglementations légales exigent le contrôle régulier des créanciers et des débiteurs par rapport aux listes dites de terrorisme et de sanctions, ainsi que l’identification des personnes politiquement exposées (PEP). Pour les petites et moyennes entreprises (PME), cette obligation pose un problème, car l’achat du logiciel correspondant n’en vaut pas la peine. Au lieu de cela, ces entreprises peuvent utiliser les contrôles PEP et des listes de sanctions comme un service. Toutefois, pour des raisons de protection des données, de nombreuses entreprises hésitent à confier leurs données clients à l’extérieur. L’alternative consistant à ne fournir que des données anonymes est peu pratique, car elle ne permet généralement pas d’effectuer un contrôle tolérant aux erreurs. Or, c’est précisément ce qui est important pour les listes de sanctions, car elles contiennent souvent des erreurs d’écriture et de transmission.

Calcul des modèles analytiques

Pour obtenir des modèles analytiques pertinents, il convient d’utiliser une base de données aussi large que possible. Si vous souhaitez calculer directement de tels modèles, il est toutefois nécessaire d’obtenir l’accord de vos clients pour une transmission et une utilisation des données.

Avec une pseudonymisation, vous pouvez également faire calculer des modèles par des tiers neutres – par exemple des prestataires de services – sans le consentement du client. Le groupe cible pertinent alors déterminé peut être à nouveau dé-pseudonymisé et adressé si le consentement correspondant est donné.

Étude de marché

Supposons que des données concernant la même personne soient disponibles dans différentes bases de données, par exemple dans les résultats d’études médicales. La mise en relation de ces données personnelles permettrait d’obtenir des informations plus détaillées, mais les obstacles à une telle démarche sont très élevés, en particulier en Allemagne. Une procédure acceptée du point de vue de la protection des données pour de tels cas fait appel à un administrateur qui détermine les données personnelles associées des différents fichiers, mais qui ne les transmet à l’utilisateur des données que sous forme anonymisée ou pseudonymisée. Dans ce cas, les fournisseurs de données doivent étendre leur domaine de confiance au fiduciaire de données. Les données personnelles sont encore mieux protégées lorsqu’elles ne sont remises au mandataire que sous forme anonyme. L’extension de la sphère de confiance n’est alors pas nécessaire. Toutefois, l’administrateur des données ne peut alors pas effectuer de comparaison à tolérance de fautes avec les procédures actuelles. Des erreurs d’écriture, même minimes, empêcheraient d’obtenir les résultats souhaités lors de la comparaison des différentes bases de données.

Enrichissement des données par des prestataires de services externes

Les prestataires de services qui proposent des informations précieuses – par exemple des données d’entreprise, des évaluations de risques, des données de communication – à des fins d’enrichissement sont confrontés à un dilemme. Soit les entreprises leur confient leurs données clients, soit elles doivent fournir leurs précieuses données aux entreprises pour qu’elles les enrichissent en interne. Avec une recherche tolérante aux erreurs et une pseudonymisation, les deux approches sont possibles sans risque.