Vos données sont-elles pseudonymisées ou anonymisées ?

A l’ère de l'analyse des “big data”, l’utilisation de données personnelles et son cadre légal sont au cœur des questionnements des organisations de santé et du champ d’actions des DPO et RSSI chargés de la sécurisation des données. Quelles techniques utiliser pour préserver la confidentialité dûe aux individus ? Quelle différence entre anonymisation et pseudonymisation ? Quels objectifs pour quels usages ?

Anonymisation et pseudonymisation font partie des mesures de sécurité et de dés-identification recommandées par le RGPD pour limiter les risques liés au traitement des données personnelles.  En pratique, on constate que ces deux notions sont souvent confondues et employées comme synonymes. Ces deux notions n’ont pourtant rien à voir tant dans leur principe que dans leurs conséquences pratiques et légales.

Au premier abord, le terme « anonymisation » évoque la notion de masque, de dissimulation. On s’imagine alors que le principe d’anonymisation revient à masquer les attributs directement identifiants d’un individu (nom, prénom, numéro de sécu). Ce raccourci constitue justement le piège à éviter ! En effet, le masquage de ces paramètres constitue plutôt une pseudonymisation.

Pseudonymisation ?

Selon la CNIL, la pseudonymisation est un « traitement de données personnelles réalisé de manière qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire ». Elle constitue une des mesures recommandées par le RGPD pour réduire les risques liés au traitement de données personnelles. Pour autant la pseudonymisation n’est pas une méthode d’anonymisation.

 La pseudonymisation réduit simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée et constitue par conséquent une mesure de sécurité utile mais non absolue. En effet, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom...) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) empêchant ainsi la réidentification directe des individus.

La pseudonymisation ne constitue toutefois pas une protection infaillible car l’identité d’un individu peut également être déduite à partir d’une combinaison de plusieurs informations appelée quasi identifiants. Ainsi, en pratique, des données pseudonymisées restent potentiellement réidentifiantes indirectement par croisement d’informations. L’identité de l’individu peut être trahie par une de ses caractéristiques indirectement identifiantes.

Cette transformation étant réversible, les données pseudonymisées sont toujours considérées comme des données personnelles.

À ce jour, les techniques de pseudonymisation les plus utilisées reposent sur des systèmes cryptographiques à clé secrète, des fonctions de hachage, du chiffrement déterministe ou encore de la Tokenization.

Un exemple concret

L’« affaire AOL (America On Line)» illustre de manière typique le malentendu qui existe entre la pseudonymisation et l’anonymisation. En 2006, une base de données contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique (pseudonymisation).
Malgré ce traitement, l’identité et la localisation de certains utilisateurs ont été rendues publiques. En effet, les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

Cet incident ne constitue qu’un exemple parmi les nombreux écueils montrant qu’un ensemble de données pseudonymisées n’est pas anonyme ; le simple fait de modifier l’identité n’empêche pas un individu d’être ré-identifié à partir d’informations quasi identifiantes (âge, sexe, code postal). Dans bien des cas, il peut se révéler aussi facile d’identifier un individu dans un ensemble de données pseudonymisées qu’à partir des données originales (jeu du « Qui est ce ? »).

Quelle différence avec l’anonymisation ?

L’anonymisation, elle, consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Ce traitement a un caractère irréversible qui implique que les données anonymisées ne sont plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD. Pour caractériser l’anonymisation, le groupe d’évaluation de la CNIL sur les méthodes d’anonymisation se base sur les 3 critères énoncés dans l’avis du 05/2014 du Comité Européen de la Protection des Données - ex G29 (source en pied de page) :

  • Individualisation :  les données anonymes ne doivent pas permettre de distinguer un individu. De ce fait, même en disposant de l’ensemble des informations quasi identifiantes relatives à un individu, il doit être impossible de distinguer celui-ci dans une base une fois anonymisé.
  • Corrélation :  les données anonymes ne doivent pouvoir être ré-identifiées en les croisant avec d’autres jeux de données. Ainsi il doit être impossible de relier deux ensembles de données provenant de sources différentes concernant le même individu. Une fois anonymisées, les données de santé d’un individu ne doivent pas pouvoir être reliées à ses données bancaires sur la base d’informations communes.
  • Inférence : les données ne doivent pas permettre de déduire de l’information additionnelle sur un individu de façon raisonnable. Il doit être par exemple impossible de déterminer avec certitude l’état de santé d’un individu à partir de données anonymes.

C’est lorsque ces trois critères sont respectés que des données sont considérées comme anonymes à proprement parler. Elles changent alors de statut juridique : elles ne sont plus considérées comme des données personnelles et sortent du cadre du RGPD. L’anonymisation ouvre donc des potentiels de réutilisation des données et permet ainsi aux acteurs d’exploiter et de partager librement leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données sans limitation.

Pseudonymisation et anonymisation : des objectifs distincts

La pseudonymisation et l’anonymisation  répondent donc à des objectifs distincts : conserver ou non le caractère personnel des informations, volonté de réutilisation ou non des données après la réalisation de la finalité d’un traitement.

Différentes techniques d’anonymisation

Il existe à ce jour plusieurs grandes familles de méthodes d’anonymisation. Pour la plupart, ces méthodes apportent la protection en dégradant la qualité, la structure ou la finesse des données d’origine, limitant ainsi la valeur informative de ces données après traitement. Le véritable défi consiste à résoudre le paradoxe entre la protection légitime des données de chacun, et leur exploitation dans l’intérêt de tous.

Octopize a su concilier l’impératif de protection des données personnelles des patients et de partage de ces données pour leur valeur informative, à l’appui d’une méthode d’anonymisation unique : Avatar. La solution développée par Octopize initialement dans des contextes de recherche biomédicale, a été évaluée avec succès par la CNIL en 2020. Elle permet grâce à des données de synthèse d’assurer d’une part la confidentialité des données d’origine (et donc leur partage sans risque) et d’autre part, de conserver la valeur informative des données d’origine.

Cliquez ici pour en savoir plus

Sources :

Affaire AOL (America On Line) : https://rig.cs.luc.edu/~rig/ecs/probsolve/NYTonSearch.pdf
GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES - avis du 05/2014 : https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

Partager ce document sur les réseaux

?>