Notation algorithmique: l’Assurance Maladie surveille les plus pauvres et harcèle les mères précaires

Depuis 2021, nous documentons via notre campagne France Contrôle les algorithmes de contrôle social utilisés au sein de nos administrations sociales. Dans ce cadre, nous avons en particulier analysé le recours aux algorithmes de notation. Après avoir révélé que l’algorithme utilisé par la CAF visait tout particulièrement les plus précaires, nous démontrons, via la publication de son code¹Plus précisément, nous avons eu accès à l’ensemble des odds ratio associés aux variables, ce qui nous a permis de rétro-ingéniérer le code de l’algorithme., que l’Assurance Maladie utilise un algorithme similaire ciblant directement les femmes en situation de précarité.

Depuis 2018, un algorithme développé par l’Assurance Maladie (CNAM) attribue une note, ou score de suspicion, à chaque foyer bénéficiant de la Complémentaire Santé Solidaire gratuite (C2SG), soit 6 millions de personnes parmi les plus pauvres de France²La C2S gratuite (C2SG) est une complémentaire santé gratuite accordée sous conditions de revenus et de composition familiale. Réservée aux foyers les plus précaires, elle bénéficiait, en 2023, à 5,9 millions de personnes (voir ici). Le plafond annuel de ressources de la C2SG a été fixé à 9 719 € pour une personne seule, en métropole, au 1^er avril 2023, modulable en fonction de la composition du foyer du demandeur (voir ici). Attribuée au niveau du foyer et non au niveau individuel, elle sert à couvrir tout ou partie des frais restant à la charge de l’assuré·e. La C2S peut aussi être soumise à participation financière en cas de revenus légèrement supérieurs (1,5 million de personnes).. Cette note sert à sélectionner les foyers devant faire l’objet d’un contrôle. Plus elle est élevée, plus la probabilité qu’un foyer soit contrôlé est grande. Suite à une erreur de la CNAM, nous avons pu avoir accès au code source de cet algorithme que nous rendons public avec cet article. Le constat est accablant.

L’algorithme cible délibérément les mères précaires. Ces dernières, ouvertement présentées dans des documents officiels par les responsables de la CNAM comme étant « les plus à risques d’anomalies et de fraude »³Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM., reçoivent un score de suspicion plus élevé que le reste des assuré·es. En retour, elles subissent un plus grand nombre de contrôles. Notons que les – trop rares – témoignages dont nous disposons montrent que ces contrôles peuvent notamment aboutir à des suspensions abusives de couverture santé entraînant des ruptures d’accès aux soins aux conséquences particulièrement graves, et ce, pour l’ensemble des ayants droit du foyer dont les enfants⁴Si la violence des contrôles organisés par la CAF sont particulièrement bien documentés – voir notamment les travaux des collectifs Changer de Cap et Stop Contrôles –, il n’existe pas, à notre connaissance, de travail équivalent sur les contrôles CNAM. Nous avons cependant pu échanger avec des associations de défense des droits des assuré·es qui ont confirmé l’existence de suspensions abusives de couverture santé..

Stigmatiser les femmes précaires

« Première demande dont le demandeur est une femme de plus de 25 ans avec plus d’un majeur et au moins un mineur dans le foyer »⁵Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM.. Voici, mot pour mot, comment est décrit, au détour d’une slide PowerPoint, ce que les responsables de la CNAM appellent le « profil-type du fraudeur »⁶L’expression « profil-type du fraudeur » est tirée du rapport 2020 de lutte contre la fraude de l’Assurance Maladie disponible ici.. C’est ce « profil-type » que l’algorithme est chargé d’aller détecter parmi les assuré·es. Plus une personne se rapproche de ce profil, plus son score de suspicion est élevé et sa probabilité d’être contrôlée est grande.

L’analyse du code de l’algorithme vient confirmer cette description. Parmi les variables utilisées par l’algorithme et augmentant le score de suspicion, on trouve notamment le fait d’être une femme, d’avoir des enfants mineurs ou d’être âgé·e de plus de 25 ans⁷Un premier modèle a été utilisé par l’Assurance Maladie entre 2018 et 2021. Visant à prédire le risque d’indus, il est basé sur une régression logistique simple comprenant 5 variables en entrée, dont le sexe, l’âge ou la composition du foyer. En 2021, ce modèle a été modifié à la marge. L’entraînement semble être réalisé dans les « règles de l’art », à partir de la sélection aléatoire de plusieurs milliers de dossiers, envoyés aux équipes de contrôle puis utilisés comme base d’apprentissage. Pour plus de détails, voir l’analyse sur notre Gitlab..

Si cet algorithme ne fait pas directement apparaître de critères liés à la précarité économique, c’est tout simplement que ce critère est déjà présent de base dans la définition de la population analysée. Bénéficiaire de la C2SG, cette « femme de plus de 25 ans » fait partie des 6 millions de personnes les plus pauvres de France, dont la majorité est allocataire du RSA et/ou privée d’emploi⁸Pour une présentation du public concerné par la C2SG, voir notamment le rapport annuel 2023 portant sur la Complémentaire Santé Solidaire de la Direction de la Sécurité Sociale disponible ici..

Vers un ciblage des personnes malades ou en situation de handicap ?

En complément du code de l’algorithme utilisé depuis 2018, nous avons obtenu celui d’un modèle expérimental développé en vue d’évolutions futures. En plus de cibler les mères précaires, ce modèle ajoute aux critères venant augmenter le score de suspicion d’un·e assuré·e le fait d’être en situation de handicap (« bénéficier d’une pension d’invalidité »), d’être malade (être « consommateur de soin » ou avoir « perçu des indemnités journalières », c’est-à-dire avoir été en arrêt maladie) ou encore… d’être « en contact avec l’Assurance Maladie »⁹Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM. Ajoutons qu’il est possible que les équipes de la CNAM aient réalisé des traitements illégaux pour arriver à ces tristes conclusions. Si le modèle alternatif nécessite des croisements de données illégaux – rappelons par ailleurs qu’il est question de données de santé – il est légitime de s’interroger sur la base légale à partir de laquelle son « efficience » a pu être testée..

Une précision s’impose. Le fait que ce modèle expérimental n’ait pas été généralisé n’est en rien lié à un sursaut de décence de la part de la CNAM. Son « efficience » fut au contraire vantée dans des documents distribués lors de sa présentation en « Comité de direction Fraude » début 2020¹⁰Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM.. Le seul problème, y expliquent les équipes de statisticien·nes de la CNAM, est que son utilisation n’est pas légale car ce nouveau modèle nécessiterait un « croisement de données non autorisé ». Pour pouvoir le mettre en place, les équipes cherchent à appâter les dirigeant⸱es de la CNAM afin de gagner leur appui pour obtenir le changement réglementaire nécessaire à la mise en place de ce croisement de données¹¹Le croisement demandé semble concerner notamment la base SIAM Erasme, soit une base de données nominatives particulièrement intrusives puisque portant sur les dépenses de santé. Voir ce rapport de la Cour des Comptes. L’accès aux données des comptes bancaires semble aussi être au centre des « limitations réglementaires » empêchant la CNAM de généraliser les modèles expérimentaux..

Opacité et indécence

S’il est une chose cruciale que montrent les documents que nous rendons publics, c’est que les dirigeant⸱es de la CNAM sont parfaitement au courant de la violence des outils qu’ils et elles ont validé. Nul besoin d’être expert·e en statistique pour comprendre les descriptions retranscrites ci-dessus relatives du « profil-type du fraudeur »¹²L’expression « profil-type du fraudeur » est tirée du rapport 2020 de lutte contre la fraude de l’Assurance Maladie disponible ici. que l’algorithme est chargé de cibler.

Mais plutôt que de s’y opposer, les responsables de la CNAM ont préféré utiliser l’opacité entourant son fonctionnement pour en tirer profit. Technique « à la pointe de la technologie », « intelligence artificielle » permettant une « détection proactive » de la fraude, outil prédictif « à la Minority Report » : voici comment, au gré de rapports officiels ou d’interventions publiques, ce type d’outil est vanté¹³Ces citations se réfèrent globalement à l’ensemble des algorithmes de notation utilisé par la CNAM à des fins de contrôle, ce qui inclut tant l’algorithme de notation des bénéficiaires de la C2SG que les algorithmes utilisé pour le profilage et le contrôle des professionnels de santé. Voir le site de l’assurance maladie, le rapport annuel 2021 de lutte contre la fraude à l’assurance maladie disponible ici et l’article publié en 2022 sur Challenges, « Pour débusquer les fraudeurs, la Sécu met le paquet sur l’IA et les cyber-enquêteurs » et le 30 septembre 2022 disponible ici.. L’absence de transparence vis à vis du grand public quant aux critères de ciblage de l’algorithme permet de masquer la réalité des politiques de contrôles. Cette situation permet alors aux dirigeant.es de l’Assurance Maladie de faire briller leurs compétences gestionnaires et leur capacité d’innovation sur le dos des plus précaires.

Au caractère indécent d’une telle présentation, ajoutons ici qu’elle est en plus mensongère. Car, contrairement à la manière dont il est présenté, l’algorithme n’est pas construit pour détecter les seules situations de fraudes. La documentation technique montre qu’il est entraîné pour prédire le fait qu’un dossier présente ce que l’Assurance Maladie appelle une « anomalie », c’est à dire le fait que les revenus d’un·e assuré·e dépasse le plafond de revenus de la C2S¹⁴Pour qu’une anomalie soit déclarée comme fraude, il faut que le niveau de revenu constaté après contrôle soit supérieur à 3 fois le plafond de la C2S. Voir notamment le rapport annuel 2021 de lutte contre la fraude disponible ici.. Or seule une partie de ces « anomalies » – lorsque l’écart entre les revenus et le plafond dépasse un certain montant – est classifiée comme fraude par l’Assurance-Maladie. Tout laisse à penser que la majorité des « anomalies » détectées par l’algorithme résulte avant tout d’erreurs involontaires, liées à la complexité des critères d’attribution de la C2SG qui inclut notamment l’ensemble des revenus dont le foyer dispose, et ce, jusqu’aux cadeaux et dons familiaux¹⁵Si nous n’avons pu trouver de chiffres précis quant à la proportion d’« anomalies » liées à des erreurs involontaires dans le cas de la C2SG, nous nous basons sur les études existantes portant sur l’origine des trop-perçus liés au Revenu de Solidarité Active (RSA) dont les conditions d’attribution – nonobstant la fréquence trimestrielle ou annuelle des déclarations – sont similaires à celle de la C2SG. Or, les études portant sur les RSA démontrent sans exception que la très grande majorité des trop-perçus sont liés à des erreurs déclaratives liés à la complexité déclarative de cette prestation. Plusieurs de ces études sont citées dans cet article..

Cette communication est finalement à mettre en perspective face aux enjeux financiers. En 2022, le directeur de l’Assurance Maladie annonçait que la fraude à l’ensemble de la C2S était estimée à 1% de son coût, soit 25 millions sur plus de 2,5 milliards d’euros¹⁶En 2022, le directeur de l’Assurance Maladie a présenté les premières estimations devant le Sénat. Son audition est disponible ici. Voir aussi le rapport annuel de lutte contre la fraude de l’Assurance Maladie 2021 disponible ici. Les chiffres des montants de la C2S (gratuite et avec participation financière) gérés par la CNAM sont disponibles dans le rapport annuel 2023 de la direction de la sécurité sociale.. En revanche, le taux de non-recours à cette prestation sociale était lui estimé à plus de 30%, soit un « gain » d’environ… un milliard d’euros pour la CNAM¹⁷Voir Mathilde Caro, Morgane Carpezat, Loïcka Forzy, « Le recours et le non-recours à la complémentaire santé solidaire. Les dossiers de la Drees 2023 », disponible ici.. Ces chiffres soulignent l’hypocrisie politique de l’importance de lutter contre la fraude à la C2SG – et la nécessité des outils dopés à l’intelligence artificielle – tout en démontrant que le recours à de tels outils est avant tout une question d’image et de communication au service des dirigeant·es de l’institution.

Technique et déshumanisation

Il est une dernière chose que mettent en lumière les documents que nous rendons public. Rédigés par les équipes de statisticien·nes de la CNAM, ils offrent un éclairage particulièrement cru sur l’absence flagrante de considération éthique par les équipes techniques qui développent les outils numériques de contrôle social. Dans ces documents, nulle part n’apparaît la moindre remarque quant aux conséquences humaines de leurs algorithmes. Leur construction est abordée selon des seules considérations techniques et les modèles uniquement comparés à l’aune du sacro-saint critère d’efficience.

On perçoit alors le risque que pose la numérisation des politiques de contrôle dans le poids qu’elle donne à des équipes de data-scientists coupées des réalités de terrain – ils et elles ne seront jamais confrontées à la réalité d’un contrôle et à leurs conséquences en termes d’accès aux soins – et nourries d’une vision purement mathématique du monde.

On appréhende aussi l’intérêt d’une telle approche pour les responsables des administrations sociales. Ils et elles n’ont plus à faire face aux éventuelles réticences des équipes de contrôleur·ses lors de la définition des politiques de contrôle¹⁸Sur la contestation lors de l’élaboration de politiques de contrôle par les équipes internes à la CNAF, voir le livre Contrôler les assistés. Genèses et usage d’un mot d’ordre, de Vincent Dubois, page 250.. Ils et elles n’ont d’ailleurs même plus à expliquer la façon dont ces politiques ont été construites aux équipes de contrôleur·ses, à qui il est simplement demandé de contrôler les dossiers les moins bien notés par un algorithme-boîte-noire.

Le problème n’est pas technique mais politique

Depuis maintenant deux ans, nous documentons la généralisation des algorithmes de notation à des fins de contrôle au sein de notre système social. À l’instar de la CNAM, nous avons montré qu’ils étaient aujourd’hui utilisés à la Caisse Nationale des Allocations Familiales (CNAF), l’Assurance-Vieillesse ou encore la Mutualité Sociale Agricole et ont été expérimentés à France Travail.

Depuis deux ans, nous alertons sur les risques associés à l’essor de ces techniques, tant en termes de surveillance numérique que de discriminations et de violence institutionnelle. Surtout, nous n’avons eu de cesse de répéter que, quelques soient les institutions sociales, ces algorithmes ne servent qu’un seul objectif : faciliter l’organisation de politiques de harcèlement et de répression des plus précaires, et ce grâce à l’opacité et au vernis scientifique qu’ils offrent aux responsables des administrations sociales.

C’est désormais chose prouvée pour deux administrations. Pour la CNAM avec cet article. Mais aussi pour la CNAF, dont nous avons publié il y a tout juste un an le code de l’algorithme de notation alimenté par les données personnelles de plus de 30 millions de personnes, et que nous avons attaqué devant le Conseil d’État en octobre dernier avec 14 autres organisations en raison du ciblage des personnes en situation de précarité, de handicap ou encore les mères isolées.

Nous espérons que cet article, associé à ceux publiés sur la CNAF, finira de démontrer qu’il n’est pas nécessaire d’accéder au code de l’ensemble de ces algorithmes pour connaître leurs conséquences sociales. Car le problème n’est pas technique mais politique.

Vendus au nom de la soi-disant « lutte contre la fraude sociale », ces algorithmes sont en réalité conçus pour détecter des trop-perçus, ou indus, dont toutes les études montrent qu’ils se concentrent sur les personnes précaires en très grande difficulté. En effet, ces indus sont largement le fait d’erreurs déclaratives involontaires consécutives à deux principaux facteurs: la complexité des règles d’attribution des minima sociaux (RSA, AAH, C2SG…) et des situations personnelles de grande instabilité (personnelle, professionnelle ou administrative). Un ancien responsable de la CNAF expliquait ainsi que « Les indus s’expliquent […] par la complexité des prestations, le grand nombre d’informations mobilisées pour déterminer les droits et l’instabilité accrue de la situation professionnelle des allocataires », ce qui est avant tout le cas pour les « prestations liées à la précarité […] très tributaires de la situation familiale, financière et professionnelle des bénéficiaires »¹⁹Voir les articles d’un directeur du service « contrôle et lutte contre la fraude ». Le premier « Du contrôle des pauvres à la maîtrise des risques » a été publié en 2006 et est disponible ici. Le second est intitulé « Le paiement à bon droit des prestations sociales des CAF » publié en 2013 et disponible ici..

Autrement dit, ces algorithmes ne peuvent pas être améliorés car ils ne sont que la traduction technique d’une politique visant à harceler et réprimer les plus précaires d’entre nous.

Lutter

L’hypocrisie et la violence de ces pratiques et des politiques qui les sous-tendent doivent être dénoncées et ces algorithmes abandonnés. Quant aux responsables qui les appellent de leurs vœux, les valident et les promeuvent, ils et elles doivent répondre de leur responsabilité.

Pour nous aider à continuer à documenter ces abus, vous pouvez nous faire un don. Nous appelons également celles et ceux qui, bénéficiaires de la C2SG ou non, souhaitent agir contre cet algorithme et plus largement les politiques de contrôles de la CNAM. Assuré·es, collectifs, syndicats, employé·es de la CNAM, vous pouvez nous contacter sur algos@laquadrature.net pour réfléchir collectivement aux suites à donner à cette publication.

References[+]

References
↑1	Plus précisément, nous avons eu accès à l’ensemble des odds ratio associés aux variables, ce qui nous a permis de rétro-ingéniérer le code de l’algorithme.
↑2	La C2S gratuite (C2SG) est une complémentaire santé gratuite accordée sous conditions de revenus et de composition familiale. Réservée aux foyers les plus précaires, elle bénéficiait, en 2023, à 5,9 millions de personnes (voir ici). Le plafond annuel de ressources de la C2SG a été fixé à 9 719 € pour une personne seule, en métropole, au 1^er avril 2023, modulable en fonction de la composition du foyer du demandeur (voir ici). Attribuée au niveau du foyer et non au niveau individuel, elle sert à couvrir tout ou partie des frais restant à la charge de l’assuré·e. La C2S peut aussi être soumise à participation financière en cas de revenus légèrement supérieurs (1,5 million de personnes).
↑3, ↑5, ↑10	Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM.
↑4	Si la violence des contrôles organisés par la CAF sont particulièrement bien documentés – voir notamment les travaux des collectifs Changer de Cap et Stop Contrôles –, il n’existe pas, à notre connaissance, de travail équivalent sur les contrôles CNAM. Nous avons cependant pu échanger avec des associations de défense des droits des assuré·es qui ont confirmé l’existence de suspensions abusives de couverture santé.
↑6, ↑12	L’expression « profil-type du fraudeur » est tirée du rapport 2020 de lutte contre la fraude de l’Assurance Maladie disponible ici.
↑7	Un premier modèle a été utilisé par l’Assurance Maladie entre 2018 et 2021. Visant à prédire le risque d’indus, il est basé sur une régression logistique simple comprenant 5 variables en entrée, dont le sexe, l’âge ou la composition du foyer. En 2021, ce modèle a été modifié à la marge. L’entraînement semble être réalisé dans les « règles de l’art », à partir de la sélection aléatoire de plusieurs milliers de dossiers, envoyés aux équipes de contrôle puis utilisés comme base d’apprentissage. Pour plus de détails, voir l’analyse sur notre Gitlab.
↑8	Pour une présentation du public concerné par la C2SG, voir notamment le rapport annuel 2023 portant sur la Complémentaire Santé Solidaire de la Direction de la Sécurité Sociale disponible ici.
↑9	Voir ce document de présentation du modèle de datamining en « Comité de Direction Fraude » le 11 janvier 2020. C’est ce document qui a été mal occulté par les équipes de la CNAM. Ajoutons qu’il est possible que les équipes de la CNAM aient réalisé des traitements illégaux pour arriver à ces tristes conclusions. Si le modèle alternatif nécessite des croisements de données illégaux – rappelons par ailleurs qu’il est question de données de santé – il est légitime de s’interroger sur la base légale à partir de laquelle son « efficience » a pu être testée.
↑11	Le croisement demandé semble concerner notamment la base SIAM Erasme, soit une base de données nominatives particulièrement intrusives puisque portant sur les dépenses de santé. Voir ce rapport de la Cour des Comptes. L’accès aux données des comptes bancaires semble aussi être au centre des « limitations réglementaires » empêchant la CNAM de généraliser les modèles expérimentaux.
↑13	Ces citations se réfèrent globalement à l’ensemble des algorithmes de notation utilisé par la CNAM à des fins de contrôle, ce qui inclut tant l’algorithme de notation des bénéficiaires de la C2SG que les algorithmes utilisé pour le profilage et le contrôle des professionnels de santé. Voir le site de l’assurance maladie, le rapport annuel 2021 de lutte contre la fraude à l’assurance maladie disponible ici et l’article publié en 2022 sur Challenges, « Pour débusquer les fraudeurs, la Sécu met le paquet sur l’IA et les cyber-enquêteurs » et le 30 septembre 2022 disponible ici.
↑14	Pour qu’une anomalie soit déclarée comme fraude, il faut que le niveau de revenu constaté après contrôle soit supérieur à 3 fois le plafond de la C2S. Voir notamment le rapport annuel 2021 de lutte contre la fraude disponible ici.
↑15	Si nous n’avons pu trouver de chiffres précis quant à la proportion d’« anomalies » liées à des erreurs involontaires dans le cas de la C2SG, nous nous basons sur les études existantes portant sur l’origine des trop-perçus liés au Revenu de Solidarité Active (RSA) dont les conditions d’attribution – nonobstant la fréquence trimestrielle ou annuelle des déclarations – sont similaires à celle de la C2SG. Or, les études portant sur les RSA démontrent sans exception que la très grande majorité des trop-perçus sont liés à des erreurs déclaratives liés à la complexité déclarative de cette prestation. Plusieurs de ces études sont citées dans cet article.
↑16	En 2022, le directeur de l’Assurance Maladie a présenté les premières estimations devant le Sénat. Son audition est disponible ici. Voir aussi le rapport annuel de lutte contre la fraude de l’Assurance Maladie 2021 disponible ici. Les chiffres des montants de la C2S (gratuite et avec participation financière) gérés par la CNAM sont disponibles dans le rapport annuel 2023 de la direction de la sécurité sociale.
↑17	Voir Mathilde Caro, Morgane Carpezat, Loïcka Forzy, « Le recours et le non-recours à la complémentaire santé solidaire. Les dossiers de la Drees 2023 », disponible ici.
↑18	Sur la contestation lors de l’élaboration de politiques de contrôle par les équipes internes à la CNAF, voir le livre Contrôler les assistés. Genèses et usage d’un mot d’ordre, de Vincent Dubois, page 250.
↑19	Voir les articles d’un directeur du service « contrôle et lutte contre la fraude ». Le premier « Du contrôle des pauvres à la maîtrise des risques » a été publié en 2006 et est disponible ici. Le second est intitulé « Le paiement à bon droit des prestations sociales des CAF » publié en 2013 et disponible ici.