Négligences à la CAF : 10 000 dossiers d’allocataires en accès libre

Posted on


Après avoir documenté l’utilisation d’un algorithme de notation des allocataires à des fins de contrôle social par la CAF (voir ici et ici), nous revenons ici sur la fuite de plus de 10 000 dossiers d’allocataires suite à un ensemble de négligences de la part de l’institution.

Suite à notre travail sur l’utilisation d’un algorithme de notations des allocataires utilisé afin de sélectionner celles et ceux qui feront l’objet d’un contrôle (voir ici et ici), nous avons été contacté·es par la cellule investigation de Radio France (voir leur article ici) à propos d’une base de données contenant plus de 10 000 dossiers d’allocataires de la CAF disponible en ligne sans aucune protection et accessible par n’importe qui.

Une fuite majeure : état civil, situation familiale, données médicales et multiples informations sur les enfants

Pour chaque dossier, 181 variables sont disponibles1Pour l’explication des variables présentes, voir ce dictionnaire. La liste des variables est accessible ici. D’autres données relatives à la navigation internet des allocataires sur le site de la CAF étaient disponibles.. On trouve notamment les informations suivantes sur chaque allocataire :

  • État civil : sexe, date de naissance, nationalité (française ou non), adresse (sans le nom de la ville)2Voir SEXE, DTNAIRES, NATIFAM, LILI4ADR..
  • Logement : type de logement (propriétaire, locataire, sans domicile fixe, hébergement à titre gracieux, hôtel…), informations sur le loyer 3Voir OCCLOG, MTAIDEL, MTLOYREM..
  • Situation personnelle : célibataire/veuf·ve/en couple/divorcé·e, personne sous tutelle ou non (civile, judiciaire, médicale…) 4Voir SITFAM, NATTUT..
  • Situation médicale : grossesse en cours ou non, « niveau » de handicap5Voir TITUAAH, TOPGRO, CINCAAH..
  • Situation professionnelle : « activité » (chômeurs·es, salarié·e, retraité·e, étudiant·e, handicapé·e, personne « inactive ») 6Voir ACTRESPD0..
  • Situation du conjoint : activité (chômeurs·es, activité « normale », retraité·e, étudiant·e, handicapé·e, « inactive »), date de naissance 7Voir PRESCONJ, DTNAICONJ, ACTCONJ..
  • Situation familiale : nombre de personnes du foyer, nombre d’enfants, existence de pensions alimentaires, de garde alternée, revenus du foyer 8Voir SITFAM, PERSCOUV, NBENLEFA, TPA, NBUC, RUC..
  • Pour chaque enfant de l’allocataire : date de naissance, sexe, s’il ou elle est orphelin, a été abandonné·e à la naissance, sa « qualité » (« infirme », étudiant·e, stagiaire, salarié·e, apprenti·e), s’il ou elle est à charge ou encore en résidence alternée9Voir variables DNAIENF, CATEENF, QUALENF, ENFASFVERS..
  • Type et montant des allocations : Allocations familiales, APL, RSA, Prime d’activité, Allocation d’adultes Handicapés 10Voir toutes les variables en *VERS, TITUAAH..

L’exposition de cette base de données révèle donc énormément d’informations personnelles et sensibles sur plus de 10 000 allocataires. Et ce depuis plus d’un an et demi11Les premiers exercices semblent avoir été publiés en mars 2021., sa date de mise en ligne remontant à mars 2021.

L’authenticité de ces données a été vérifiée par des journalistes de Radio France qui ont contacté plusieurs des allocataires identifiés à partir des informations disponibles.

Des données transférées à un prestataire privé sans aucune justification

Ces données ont été mises en ligne par un prestataire privé à qui la CAF avait demandé de former ses agent·es à la manipulation d’un logiciel de traitement statistique. C’est dans le cadre de cette formation que la CAF a communiqué quelques 10 000 dossiers d’allocataires à ce prestataire. Le but était qu’il puisse créer des exercices portant sur des cas réalistes.

À la vue du niveau très basique des exercices proposés dans la formation (manipulation simple de variables, tri de données, export/import de tables…), rien ne justifie l’utilisation de données personnelles des allocataires. En d’autres termes, les exercices auraient pu être réalisés avec des jeux de données complètement anodins (accessibles publiquement par exemple).

Contacté par Radio France, le prestataire a lui-même dit qu’il pensait que les données envoyées étaient « fictives », ajoutant qu’il n’avait pas demandé de données réelles car cela n’était pas nécessaire…

Ce transfert de données semble donc révéler le peu de cas que la CAF fait de nos données personnelles. Ou plutôt un sentiment de propriété de nos données personnelles de la part de ses responsables, qui semblent trouver cela normal de les transférer sans aucune raison à des prestataires privés… Ou de les utiliser pour développer un algorithme de notation ciblant les plus précaires.

Petit rappel aux responsables de la CAF (1/2) : supprimer les noms et prénoms ne revient pas à anonymiser des données

Certes, la CAF avait pris la « précaution » d’enlever du jeu de données les noms et prénoms des allocataires ainsi que le code postal. Mais une simple recherche à partir du reste de l’adresse (numéro et nom de rue), sur un site comme les Pages jaunes, suffit à identifier de nombreuses personnes.

C’est cette approche qu’a adoptée l’équipe de Radio France pour vérifier l’authenticité des données via l’appel à des allocataires dont la trace a été retrouvée.

Ainsi la CAF semble ignorer les principes de base de l’anonymisation des données personnelles. Une anonymisation correcte nécessite bien plus de traitements de manière à ce qu’il ne soit pas possible d’identifier les individus auxquels sont rattachés les données. Il faut par exemple supprimer, ou a minima modifier, les informations directement identifiantes (date de naissance et adresse par exemple). Nous redirigeons ces responsables vers le guide de la CNIL portant sur ce sujet.

Petit rappel aux responsables de la CAF (2/2) : chiffrer ses données, c’est bien

Pire, la base de données a été publiée sans que son accès n’ait été protégé. On aurait pu imaginer, a minima, que le prestataire les chiffrerait avant de les mettre en ligne pour les élèves de la formation à qui il aurait communiqué le mot de passe protégeant le fichier.

Mais même cette mesure de précaution élémentaire a été écartée. Le fichier contenant les informations a été publié sans la moindre protection. Il était donc accessible à toute personne se rendant sur le site du prestataire.

Le « Centre National d’Appui au Datamining » au centre des controverses

L’analyse des adresses des allocataires présentes dans les fichiers révèle que la plupart se trouvent en région bordelaise. Or c’est à Bordeaux que se trouve le « Centre National d’appui au Datamining » (CNAD)12Le centre d’appui au datamining (CNAD) a été créé en 2012 à Bordeaux par la CAF de Gironde. Voir notamment l’article de Mathieu Arzel dans le numéro 58 revue Regards publié en 2020 et disponible ici. de la CAF.

Ce centre a été créé en 2012 pour développer le fameux algorithme de notation des allocataires aujourd’hui vivement contesté (voir ici, ici, ici, ici ou encore ici).

Il est ainsi légitime de se demander si la formation ayant conduit à la fuite de données était à destination des agent·es du CNAD. Peut-être même d’agent·es ayant vocation à travailler sur l’algorithme de notation lui-même ?

La CAF doit rendre des comptes sur ses pratiques numériques

Les révélations sur les pratiques numériques nocives et irrespectueuses des données personnelles des allocataires par la CAF s’accumulent. Face aux questions légitimes qui lui sont posées, la CAF préfère s’enfermer dans l’opacité (voir notre article ici).

Nous n’arrêterons pas pour autant de les documenter.

Image d’illustration : reconstitution d’un extrait de la base de données concernée par la fuite.

References

References
1 Pour l’explication des variables présentes, voir ce dictionnaire. La liste des variables est accessible ici. D’autres données relatives à la navigation internet des allocataires sur le site de la CAF étaient disponibles.
2 Voir SEXE, DTNAIRES, NATIFAM, LILI4ADR.
3 Voir OCCLOG, MTAIDEL, MTLOYREM.
4 Voir SITFAM, NATTUT.
5 Voir TITUAAH, TOPGRO, CINCAAH.
6 Voir ACTRESPD0.
7 Voir PRESCONJ, DTNAICONJ, ACTCONJ.
8 Voir SITFAM, PERSCOUV, NBENLEFA, TPA, NBUC, RUC.
9 Voir variables DNAIENF, CATEENF, QUALENF, ENFASFVERS.
10 Voir toutes les variables en *VERS, TITUAAH.
11 Les premiers exercices semblent avoir été publiés en mars 2021.
12 Le centre d’appui au datamining (CNAD) a été créé en 2012 à Bordeaux par la CAF de Gironde. Voir notamment l’article de Mathieu Arzel dans le numéro 58 revue Regards publié en 2020 et disponible ici.