SNT Données

Identification

Infoforall

3 - Recherche dans une table


Nous avons vu ce que sont les données structurées.

Nous avons vu ce que sont les réseaux sociaux et les grandes sociétés informatiques récoltent beaucoup de ce type de données.

Mais elles sont souvent incomplètes car partiellement anonymisées. Mais est-ce un problème ?

Source : basée sur une activité sous Licence CC-BY-SA de Christophe Mieszczak.

Documents de cours : open document ou pdf

Evaluation ✎ :

1 - A l'accueil

Début janvier 2021, un groupe d’amis a decidé de faire un don du sang. Bonne action de début d'année.

Image Don du Sang
Lien vers https://dondesang.efs.sante.fr/barometre

Voici une tableau regroupant les données personnelles qu'on récupère sur eux à l'accueil avant leur prise de sang :

Date Heure Numéro Nom Prénom Date de Naissance CP Ville
06/01/2021 9h10 122Roux Emmanuelle 13/01/2001 62610
06/01/2021 9h15 123Masson Edeline 13/03/2001 62100
06/01/2021 9h25 125Astier Cécile 01/03/2000 62100
06/01/2021 9h30 126Boulot Céline 29/06/2001 62137
06/01/2021 9h35 127Campagne David 16/05/2001 62610
06/01/2021 9h40 128Bernard Jean-Pierre 12/05/2001 62100
06/01/2021 9h55 132Lefebvre Claire 12/05/2001 62100
06/01/2021 10h05 133Mayeux Eric 13/06/2000 62137
06/01/2021 10h10 134Garcia Michel 20/06/2001 62137
06/01/2021 10h15 135 Naîdji Antoine 13/04/2001 62730
06/01/2021 10h250 136Astier Cécile 01/03/2000 62100
06/01/2021 10h25 137 Van Helsen Baptiste 03/03/2002 62610

La colonne numéro est tout simplement le numéro de la personne lors de cette campagne de prise de sang.

Identifiant

Nous avons vu qu'un descripteur est le nom associé aux données d’une colonne.

Un identifiant est un descripteur qui possède une valeur unique sur chaque ligne de la table : une même valeur ne peut pas apparaître dans deux enregistrements différents sinon on ne pourrait pas les distinguer justement.

La connaissance de la valeur d'un identifiant permet de retrouver à coup sûr le bon enregistrement.

On peut aussi éventuellement utiliser une association de plusieurs descripteurs pour jouer le rôle d'identifiant : (nom, prénom, numéro de sécu) par exemple.

✎ 01° Quels sont les descripteurs utilisés dans la table précédente ?

✎ 02° Quel est le descripteur qui peut jouer le rôle d'identifiant pour cette campagne de prise de sang ?

✎ 03° Mettons de côté le descripteur Numéro. Peut-on trouver une association de plusieurs descripteurs permettant de jouer le rôle d'identifiant de façon certaine ?

✎ 04° Trier ce tableau selon le descripteur Nom. Fournir les 5 premières lignes uniquement.

Il faudra donc recréer un nouveau tableau sur votre feuille (ou utiliser le document-réponse Q-04).

Question : qui a dû s'absenter et revenir plus tard ?

2 - Lors de la prise de sang

Après leur passage, un médecin a récapitulé les résultats des analyses dans un tableau en les anonymant.

L’un des amis a réussi à en prendre une photographie avec son téléphone.

Age Sexe Ville Groupe sanguin
19 F Coulogne A
19 G Ardres A
20 F Calais A
19 G Marck AB
19 F Ardres AB
20 G Coulogne B
19 G Coulogne B
18 G Ardres B
19 F Calais B
19 F Calais O
19 G Calais O

✎ 05° Quels sont les descripteurs utilisés dans la tableu ci-dessus ?

✎ 06° Trouve-t-on plusieurs fois une même valeur dans la colonne Age ? Age peut-il jouer le rôle d'identifiant du coup ?

✎ 07° Les autres descripteurs de cette table peuvent-ils servir d'identifiant ? Justifier votre réponse ?

Voici une autre table comprenant quelques codes postaux des alentours de Calais :

Ville Code Postal
Ardres 62610
Audruicq 62370
Calais 62100
Coulogne 62137
Guines 62340
Marck 62730
Sangatte 62231

✎ 08° En croisant les données de la table de l'accueil, de la table des groupes sanguins anonymisés et des codes postaux, retrouver (lorsque c'est possible) le groupe sanguin de chaque personne de la table initiale. Créez une nouvelle table ou complétez le document-réponse Q-08. Quelles sont les personnes qui parviennent à garder l'anonymat de leur groupe sanguin ? Expliquer pourquoi on ne peut-on pas les identifier formellement.

Numéro Nom Prénom Date de Naissance CP Ville Ville Age Groupe
122Roux Emmanuelle 13/01/2001 62610
123Masson Edeline 13/03/2001 62100
125Astier Cécile 01/03/2000 62100
126Boulot Céline 29/06/2001 62137
127Campagne David 16/05/2001 62610
128Bernard Jean-Pierre 12/05/2001 62100
132Lefebvre Claire 12/05/2001 62100
133Mayeux Eric 13/06/2000 62137
134Garcia Michel 20/06/2001 62137
135 Naîdji Antoine 13/04/2001 62730
136Astier Cécile 01/03/2000 62100
137 Van Helsen Baptiste 03/03/2002 62610

✎ 09° Le simple fait d'avoir une table à priori anonyme est-il suffisant pour garantir l'anonymat réel des données présentes dans la table ?

3 - Données récoltées

Lorsqu’un organisme collecte des données personnelles (même si elles sont anonymées), il est souvent possible, en croisant des données, de les désanonymer. Une grande partie des individus d’une population est identifiable en ne connais- sant que :

  • leur date de naissance ou quelques dates précises (date d’entrée/sortie d’un hôpital par exemple)
  • leur sexe
  • la zone géographique dans laquelle ils habitent

Lors de la création d’une base de données confidentielles et sensibles, comme celle des dossiers médicaux, il faut donc choisir avec un grand soin les descripteurs si l’on souhaite qu’il soit impossible, ou du moins très difficile, de désanonymer ces données, prendre très au sérieux la sécurité de la base et garantir que ces données ne pourront pas être détournées pour un mauvais usage.

Avec l’avènement du Règlement Général de la Protection des Données (RGPD), les organismes collectant nos données doivent décrire précisément quelles données sont sauvegardées dans leur base, pour quels objectifs ces données sont conservées et garantir leur sécurité. Mais ces précisions sont souvent difficiles d’accès. Voici par exemple la charte de Doctissimo.

4 - Aliasing

Anonymisation ou Aliasing ?

Le problème de l'anonymisation des données est qu'il n'est pas toujours possible de remonter à la bonne personne avec certitude. C'est le but !

Dans le cadre d'une étude de santé anonymisée, on ne peut donc prévenir à coup sur la catégorie des personnes pour laquelle on vient de démontrer qu'ils sont à risques...

Dans certains cas, on va donc réaliser une "fausse" anonymisation : cela se nomme un aliasing.

Le principe est de pouvoir lever l'anonymat si on dispose d'un tableau d'alias faisant le lien entre un alias et une personne. L'accès au tableau doit bien entendu être régulé et surveillé.

Exemple : on dispose de trois tables publiques :

  • Une table 1 faisant le lien entre l'age et le groupe sanguin :
  • Alias Age Age Groupe sanguin
    2000 19 A
    2050 19 A
    2100 20 A
    2150 19 AB
    2200 19 AB
    2250 20 B
    2300 19 B
    2350 18 B
    2400 19 B
    2450 19 O
    2500 19 O
  • une deuxième table faisant le lien entre la ville et le groupe sanguin :
  • Alias Sexe Sexe Groupe sanguin
    4250 F B
    4500 F O
    4350 F A
    4300 F A
    4200 F AB
    4400 G A
    4650 G AB
    4550 G B
    4600 G B
    4700 G B
    4450 G O
  • une troisième table faisant le lien entre le sexe et le groupe sanguin.
  • Alias Ville Ville Groupe sanguin
    6450 Coulogne B
    6350 Calais O
    6250 Coulogne A
    6300 Ardres A
    6550 Marck AB
    6200 Calais A
    6100 Ardres AB
    6500 Coulogne B
    6600 Ardres B
    6150 Calais B
    6400 Calais O

✎ 10° En utilisant uniquement la table des Alias-age et la table de l'accueil, pouvez-vous identifier à coup sûr la personne de 19 ans et de groupe A située sur la première ligne en rouge ? Le descripteur Alias Age vous sert-il à quelque chose ?

Alias Age Age Groupe sanguin
2000 19 A
2050 19 A
2100 20 A
2150 19 AB
2200 19 AB
2250 20 B
2300 19 B
2350 18 B
2400 19 B
2450 19 O
2500 19 O
Date Heure Numéro Nom Prénom Date de Naissance CP Ville
06/01/2021 9h10 122Roux Emmanuelle 13/01/2001 62610
06/01/2021 9h15 123Masson Edeline 13/03/2001 62100
06/01/2021 9h25 125Astier Cécile 01/03/2000 62100
06/01/2021 9h30 126Boulot Céline 29/06/2001 62137
06/01/2021 9h35 127Campagne David 16/05/2001 62610
06/01/2021 9h40 128Bernard Jean-Pierre 12/05/2001 62100
06/01/2021 9h55 132Lefebvre Claire 12/05/2001 62100
06/01/2021 10h05 133Mayeux Eric 13/06/2000 62137
06/01/2021 10h10 134Garcia Michel 20/06/2001 62137
06/01/2021 10h15 135 Naîdji Antoine 13/04/2001 62730
06/01/2021 10h250 136Astier Cécile 01/03/2000 62100
06/01/2021 10h25 137 Van Helsen Baptiste 03/03/2002 62610

Comme vous le voyez, c'est beaucoup plus compliqué cette fois...

En réalité, la seule personne qui puisse faire le lien entre toutes ces informations est celle qui possède un tableau de conversion.

Cette table de conversion (qui doit rester cachée et surveillée) permet en effet de lever l'anonymat et de savoir qui se cache derrière les différents numéros alias.

Numéro Nom Prénom Date de Naissance CP Ville Alias Age Alias Sexe Alias Ville
122Roux Emmanuelle 13/01/2001 62610 2200 4200 6100
123Masson Edeline 13/03/2001 62100 2400 4250 6150
126Boulot Céline 29/06/2001 62137 2000 4350 6250
127Campagne David 16/05/2001 62610 2050 4400 6300
128Bernard Jean-Pierre 12/05/2001 62100 2500 4450 6350
132Lefebvre Claire 12/05/2001 62100 2450 4500 6400
133Mayeux Eric 13/06/2000 62137 2250 4550 6450
134Garcia Michel 20/06/2001 62137 2300 4600 6500
135 Naîdji Antoine 13/04/2001 62730 2150 4600 6500
136Astier Cécile 01/03/2000 62100 2100 4300 6200
137 Van Helsen Baptiste 03/03/2002 62610 2350 4700 6600

✎ 11° Retrouver qui sont les 3 personnes de la première entrée rouge dans les 3 tables d'alias.

Alias Age Age Groupe sanguin
2000 19 A
Alias Sexe Sexe Groupe sanguin
4250 F B
Alias Ville Ville Groupe sanguin
6450 Coulogne B

✎ 12° Quelle est la ville de la dernière personne de la liste Age (la ligne en bleu dans le tableau des alias Age) ?

Alias Age Age Groupe sanguin
2500 19 O

Nous compléterons un peu la semaine prochaine. Nous verrons (un peu) comment stocker de telles informations et comment les gérer avec un programme informatique.

Rappel : activité basée sur une activité Licence CC-BY-SA de Christophe Mieszczak. Merci à lui.

Activité publiée le 04 05 2021
Dernière modification : 04 05 2021
Auteur : ows. h.