3 - Recherche dans une table
Nous avons vu ce que sont les données structurées.
Nous avons vu ce que sont les réseaux sociaux et les grandes sociétés informatiques récoltent beaucoup de ce type de données.
Mais elles sont souvent incomplètes car partiellement anonymisées. Mais est-ce un problème ?
Source : basée sur une activité sous Licence CC-BY-SA de Christophe Mieszczak.
Documents de cours : open document ou pdf
Evaluation ✎ :
1 - A l'accueil
Début janvier 2021, un groupe d’amis a decidé de faire un don du sang. Bonne action de début d'année.
Voici une tableau regroupant les données personnelles qu'on récupère sur eux à l'accueil avant leur prise de sang :
Date | Heure | Numéro | Nom | Prénom | Date de Naissance | CP Ville |
---|---|---|---|---|---|---|
06/01/2021 | 9h10 | 122 | Roux | Emmanuelle | 13/01/2001 | 62610 |
06/01/2021 | 9h15 | 123 | Masson | Edeline | 13/03/2001 | 62100 |
06/01/2021 | 9h25 | 125 | Astier | Cécile | 01/03/2000 | 62100 |
06/01/2021 | 9h30 | 126 | Boulot | Céline | 29/06/2001 | 62137 |
06/01/2021 | 9h35 | 127 | Campagne | David | 16/05/2001 | 62610 |
06/01/2021 | 9h40 | 128 | Bernard | Jean-Pierre | 12/05/2001 | 62100 |
06/01/2021 | 9h55 | 132 | Lefebvre | Claire | 12/05/2001 | 62100 |
06/01/2021 | 10h05 | 133 | Mayeux | Eric | 13/06/2000 | 62137 |
06/01/2021 | 10h10 | 134 | Garcia | Michel | 20/06/2001 | 62137 |
06/01/2021 | 10h15 | 135 | Naîdji | Antoine | 13/04/2001 | 62730 |
06/01/2021 | 10h250 | 136 | Astier | Cécile | 01/03/2000 | 62100 |
06/01/2021 | 10h25 | 137 | Van Helsen | Baptiste | 03/03/2002 | 62610 |
La colonne numéro est tout simplement le numéro de la personne lors de cette campagne de prise de sang.
Identifiant
Nous avons vu qu'un descripteur est le nom associé aux données d’une colonne.
Un identifiant est un descripteur qui possède une valeur unique sur chaque ligne de la table : une même valeur ne peut pas apparaître dans deux enregistrements différents sinon on ne pourrait pas les distinguer justement.
La connaissance de la valeur d'un identifiant permet de retrouver à coup sûr le bon enregistrement.
On peut aussi éventuellement utiliser une association de plusieurs descripteurs pour jouer le rôle d'identifiant : (nom, prénom, numéro de sécu) par exemple.
✎ 01° Quels sont les descripteurs utilisés dans la table précédente ?
✎ 02° Quel est le descripteur qui peut jouer le rôle d'identifiant pour cette campagne de prise de sang ?
✎ 03° Mettons de côté le descripteur Numéro. Peut-on trouver une association de plusieurs descripteurs permettant de jouer le rôle d'identifiant de façon certaine ?
✎ 04° Trier ce tableau selon le descripteur Nom. Fournir les 5 premières lignes uniquement.
Il faudra donc recréer un nouveau tableau sur votre feuille (ou utiliser le document-réponse Q-04).
Question : qui a dû s'absenter et revenir plus tard ?
2 - Lors de la prise de sang
Après leur passage, un médecin a récapitulé les résultats des analyses dans un tableau en les anonymant.
L’un des amis a réussi à en prendre une photographie avec son téléphone.
Age | Sexe | Ville | Groupe sanguin |
---|---|---|---|
19 | F | Coulogne | A |
19 | G | Ardres | A |
20 | F | Calais | A |
19 | G | Marck | AB |
19 | F | Ardres | AB |
20 | G | Coulogne | B |
19 | G | Coulogne | B |
18 | G | Ardres | B |
19 | F | Calais | B |
19 | F | Calais | O |
19 | G | Calais | O |
✎ 05° Quels sont les descripteurs utilisés dans la tableu ci-dessus ?
✎ 06° Trouve-t-on plusieurs fois une même valeur dans la colonne Age ? Age peut-il jouer le rôle d'identifiant du coup ?
✎ 07° Les autres descripteurs de cette table peuvent-ils servir d'identifiant ? Justifier votre réponse ?
Voici une autre table comprenant quelques codes postaux des alentours de Calais :
Ville | Code Postal |
---|---|
Ardres | 62610 |
Audruicq | 62370 |
Calais | 62100 |
Coulogne | 62137 |
Guines | 62340 |
Marck | 62730 |
Sangatte | 62231 |
✎ 08° En croisant les données de la table de l'accueil, de la table des groupes sanguins anonymisés et des codes postaux, retrouver (lorsque c'est possible) le groupe sanguin de chaque personne de la table initiale. Créez une nouvelle table ou complétez le document-réponse Q-08. Quelles sont les personnes qui parviennent à garder l'anonymat de leur groupe sanguin ? Expliquer pourquoi on ne peut-on pas les identifier formellement.
Numéro | Nom | Prénom | Date de Naissance | CP Ville | Ville | Age | Groupe |
---|---|---|---|---|---|---|---|
122 | Roux | Emmanuelle | 13/01/2001 | 62610 | |||
123 | Masson | Edeline | 13/03/2001 | 62100 | |||
125 | Astier | Cécile | 01/03/2000 | 62100 | |||
126 | Boulot | Céline | 29/06/2001 | 62137 | |||
127 | Campagne | David | 16/05/2001 | 62610 | |||
128 | Bernard | Jean-Pierre | 12/05/2001 | 62100 | |||
132 | Lefebvre | Claire | 12/05/2001 | 62100 | |||
133 | Mayeux | Eric | 13/06/2000 | 62137 | |||
134 | Garcia | Michel | 20/06/2001 | 62137 | |||
135 | Naîdji | Antoine | 13/04/2001 | 62730 | |||
136 | Astier | Cécile | 01/03/2000 | 62100 | |||
137 | Van Helsen | Baptiste | 03/03/2002 | 62610 |
✎ 09° Le simple fait d'avoir une table à priori anonyme est-il suffisant pour garantir l'anonymat réel des données présentes dans la table ?
3 - Données récoltées
Lorsqu’un organisme collecte des données personnelles (même si elles sont anonymées), il est souvent possible, en croisant des données, de les désanonymer. Une grande partie des individus d’une population est identifiable en ne connais- sant que :
- leur date de naissance ou quelques dates précises (date d’entrée/sortie d’un hôpital par exemple)
- leur sexe
- la zone géographique dans laquelle ils habitent
Lors de la création d’une base de données confidentielles et sensibles, comme celle des dossiers médicaux, il faut donc choisir avec un grand soin les descripteurs si l’on souhaite qu’il soit impossible, ou du moins très difficile, de désanonymer ces données, prendre très au sérieux la sécurité de la base et garantir que ces données ne pourront pas être détournées pour un mauvais usage.
Avec l’avènement du Règlement Général de la Protection des Données (RGPD), les organismes collectant nos données doivent décrire précisément quelles données sont sauvegardées dans leur base, pour quels objectifs ces données sont conservées et garantir leur sécurité. Mais ces précisions sont souvent difficiles d’accès. Voici par exemple la charte de Doctissimo.
Quelques liens si vous souhaitez en savoir plus :
4 - Aliasing
Anonymisation ou Aliasing ?
Le problème de l'anonymisation des données est qu'il n'est pas toujours possible de remonter à la bonne personne avec certitude. C'est le but !
Dans le cadre d'une étude de santé anonymisée, on ne peut donc prévenir à coup sur la catégorie des personnes pour laquelle on vient de démontrer qu'ils sont à risques...
Dans certains cas, on va donc réaliser une "fausse" anonymisation : cela se nomme un aliasing.
Le principe est de pouvoir lever l'anonymat si on dispose d'un tableau d'alias faisant le lien entre un alias et une personne. L'accès au tableau doit bien entendu être régulé et surveillé.
Exemple : on dispose de trois tables publiques :
- Une table 1 faisant le lien entre l'age et le groupe sanguin :
- une deuxième table faisant le lien entre la ville et le groupe sanguin :
- une troisième table faisant le lien entre le sexe et le groupe sanguin.
Alias Age | Age | Groupe sanguin |
---|---|---|
2000 | 19 | A |
2050 | 19 | A |
2100 | 20 | A |
2150 | 19 | AB |
2200 | 19 | AB |
2250 | 20 | B |
2300 | 19 | B |
2350 | 18 | B |
2400 | 19 | B |
2450 | 19 | O |
2500 | 19 | O |
Alias Sexe | Sexe | Groupe sanguin |
---|---|---|
4250 | F | B |
4500 | F | O |
4350 | F | A |
4300 | F | A |
4200 | F | AB |
4400 | G | A |
4650 | G | AB |
4550 | G | B |
4600 | G | B |
4700 | G | B |
4450 | G | O |
Alias Ville | Ville | Groupe sanguin |
---|---|---|
6450 | Coulogne | B |
6350 | Calais | O |
6250 | Coulogne | A |
6300 | Ardres | A |
6550 | Marck | AB |
6200 | Calais | A |
6100 | Ardres | AB |
6500 | Coulogne | B |
6600 | Ardres | B |
6150 | Calais | B |
6400 | Calais | O |
✎ 10° En utilisant uniquement la table des Alias-age et la table de l'accueil, pouvez-vous identifier à coup sûr la personne de 19 ans et de groupe A située sur la première ligne en rouge ? Le descripteur Alias Age vous sert-il à quelque chose ?
Alias Age | Age | Groupe sanguin |
---|---|---|
2000 | 19 | A |
2050 | 19 | A |
2100 | 20 | A |
2150 | 19 | AB |
2200 | 19 | AB |
2250 | 20 | B |
2300 | 19 | B |
2350 | 18 | B |
2400 | 19 | B |
2450 | 19 | O |
2500 | 19 | O |
Date | Heure | Numéro | Nom | Prénom | Date de Naissance | CP Ville |
---|---|---|---|---|---|---|
06/01/2021 | 9h10 | 122 | Roux | Emmanuelle | 13/01/2001 | 62610 |
06/01/2021 | 9h15 | 123 | Masson | Edeline | 13/03/2001 | 62100 |
06/01/2021 | 9h25 | 125 | Astier | Cécile | 01/03/2000 | 62100 |
06/01/2021 | 9h30 | 126 | Boulot | Céline | 29/06/2001 | 62137 |
06/01/2021 | 9h35 | 127 | Campagne | David | 16/05/2001 | 62610 |
06/01/2021 | 9h40 | 128 | Bernard | Jean-Pierre | 12/05/2001 | 62100 |
06/01/2021 | 9h55 | 132 | Lefebvre | Claire | 12/05/2001 | 62100 |
06/01/2021 | 10h05 | 133 | Mayeux | Eric | 13/06/2000 | 62137 |
06/01/2021 | 10h10 | 134 | Garcia | Michel | 20/06/2001 | 62137 |
06/01/2021 | 10h15 | 135 | Naîdji | Antoine | 13/04/2001 | 62730 |
06/01/2021 | 10h250 | 136 | Astier | Cécile | 01/03/2000 | 62100 |
06/01/2021 | 10h25 | 137 | Van Helsen | Baptiste | 03/03/2002 | 62610 |
Comme vous le voyez, c'est beaucoup plus compliqué cette fois...
En réalité, la seule personne qui puisse faire le lien entre toutes ces informations est celle qui possède un tableau de conversion.
Cette table de conversion (qui doit rester cachée et surveillée) permet en effet de lever l'anonymat et de savoir qui se cache derrière les différents numéros alias.
Numéro | Nom | Prénom | Date de Naissance | CP Ville | Alias Age | Alias Sexe | Alias Ville |
---|---|---|---|---|---|---|---|
122 | Roux | Emmanuelle | 13/01/2001 | 62610 | 2200 | 4200 | 6100 |
123 | Masson | Edeline | 13/03/2001 | 62100 | 2400 | 4250 | 6150 |
126 | Boulot | Céline | 29/06/2001 | 62137 | 2000 | 4350 | 6250 |
127 | Campagne | David | 16/05/2001 | 62610 | 2050 | 4400 | 6300 |
128 | Bernard | Jean-Pierre | 12/05/2001 | 62100 | 2500 | 4450 | 6350 |
132 | Lefebvre | Claire | 12/05/2001 | 62100 | 2450 | 4500 | 6400 |
133 | Mayeux | Eric | 13/06/2000 | 62137 | 2250 | 4550 | 6450 |
134 | Garcia | Michel | 20/06/2001 | 62137 | 2300 | 4600 | 6500 |
135 | Naîdji | Antoine | 13/04/2001 | 62730 | 2150 | 4600 | 6500 |
136 | Astier | Cécile | 01/03/2000 | 62100 | 2100 | 4300 | 6200 |
137 | Van Helsen | Baptiste | 03/03/2002 | 62610 | 2350 | 4700 | 6600 |
✎ 11° Retrouver qui sont les 3 personnes de la première entrée rouge dans les 3 tables d'alias.
Alias Age | Age | Groupe sanguin |
---|---|---|
2000 | 19 | A |
Alias Sexe | Sexe | Groupe sanguin |
---|---|---|
4250 | F | B |
Alias Ville | Ville | Groupe sanguin |
---|---|---|
6450 | Coulogne | B |
✎ 12° Quelle est la ville de la dernière personne de la liste Age (la ligne en bleu dans le tableau des alias Age) ?
Alias Age | Age | Groupe sanguin |
---|---|---|
2500 | 19 | O |
Activité publiée le 04 05 2021
Dernière modification : 04 05 2021
Auteur : ows. h.