Usages, gouvernance et partage des entrepôts de données biomédicaux (Le compte-rendu de Gérard Péliks)

La médecine nouvelle pilotée par les données biomédicales. La clinique des données ou comment utiliser les données massives en garantissant leur quasi-anonymat ?

Parmi les conférences du 7e Congrès National de la Sécurité des Systèmes d’Information de Santé (CNSSIS) organisé par l’APSSIS du 2 au 4 avril 2019, dans l'Espace culturel des Quinconces au cœur de la cité historique du Mans, nous avons assisté à la présentation du professeur Pierre-Antoine Gourraud sur ses travaux de recherche, menées à l’université de Californie à San Francisco portant sur l’exploitation des entrepôts de données de santé et sur le fonctionnement de la clinique des données au CHU de Nantes. Pierre-Antoine Gourraud est également praticien-hospitalier à la faculté de médecine de l’université de Nantes.

Ancien élève de l’Ecole Normale Supérieure de Lyon, Pierre-Antoine Gourraud est docteur en Santé publique et entrepreneur. Il s’intéresse particulièrement aux algorithmes utilisés par l’intelligence artificielle dans le domaine de la santé et dans le Big Data. Au CHU de Nantes, il a créé la « Clinique des données » qui exploite les entrepôts de données de santé issues des activités de cet hôpital. Cette entité annonce d’importants changements dans les soins apportés aux patients. Bien sûr, les données traitées ne doivent pas pouvoir être rattachées aux patients qui les produisent. Il est donc indispensable d’approcher leur anonymisation, on parle alors d’avatars de données.

La vision à l’échelle des populations de la médecine inscrite dans la politique publique de santé, celle qui prévaut en particulier dans la Recherche et dans l’épidémiologie, bénéficie de financements importants et s’oppose à la médecine clinique pratique qui est celle menée quotidiennement pour chaque patient par le personnel hospitalier.

Voir, faire et comprendre différemment grâce au Big Data
Les technologies de l’Information apportent une aide considérable dans le domaine médical. Pierre-Antoine Gourraud donne l’exemple du Vidal accessible de plus en plus sur tablettes dans les pharmacies, et qui ne nécessite plus de chercher les caractéristiques d’un médicament dans une édition papier. Mais cela n’est pas une révolution. Par contre les technologies analytiques comme le Big Data amènent de grands changements comme par exemple de permettre l’apprentissage profond. Ceci n’est d’ailleurs pas spécifique à la médecine.

Très spécifiques à la santé par contre, les nouvelles technologies permettent de voir différemment la maladie. Le stéthoscope, l’électrocardiogramme, l’IRM, le séquençage de l’ADN, permettent d’accéder à des informations qui n’étaient pas envisageables d’obtenir avant. Elles induisent des changements dans les pratiques médicales. Les nouvelles technologies permettent aussi de faire différemment. Par exemple, elles peuvent permettre à la microchirurgie d’opérer à distance. Les nouvelles technologies permettent aussi de comprendre différemment et même de faire des prédictions réalistes.

Données médicales pour la recherche et données médicales pour chaque patient
Un important changement s’opère dans la manière d’obtenir les données de Recherche en santé. Elles peuvent ne plus être « produites spécifiquement pour la Recherche » comme ça se pratique depuis longtemps, en étant collectées sur des catégories de populations tirées au hasard. Par exemple sur un groupe à qui on soumet un médicament actif et un groupe à qui est soumis un placebo. Ces essais cliniques permettent de comparer la différence des réactions des deux groupes et donc de déterminer l’efficacité d’un traitement. Aujourd’hui l’accès à des données patients non enregistrées à des fins de Recherche, mais produites pour traiter les patients, comme celles des DMP permettent d’améliorer les soins. La population est réelle, non choisie et les données, qui ne sont pas orientées, permettent de répondre à beaucoup de questions qui sont posées après que les données aient été enregistrées. Contrairement aux données créées spécifiquement pour la Recherche qui permettent seulement de valider des hypothèses préalablement posées, ces données ouvertes permettent de reconsidérer les résultats des essais cliniques et de constituer des bases de recherche efficaces.

Sept grands usages du Big Data
Pierre-Antoine Gourraud voit, dans le Big Data, sept grands usages que le traitement des données massives de santé permet : Comprendre le fonctionnement du système de soin, cibler des sous-groupe de patients, améliorer la relation soignant–soigné pour la prescription de médicaments et d’examens et mesurer l’incertitude, assurer la continuité pour chaque patient entre sa santé et son bien-être, détecter des évènements anormaux, enrichir la Recherche par de nouvelles source de données de grande taille, et enfin former les professionnels de Santé.

Le Big Data au service de la médecine, en cinq lettres
La médecine dite de précision est prédictive, personnalisée, préventive et participative, ce que Pierre-Antoine Gourraud appelle les « 4p ». Les données de santé sont spécifiques et beaucoup plus complexes, en général, que celles habituellement traitées dans les data lakes d’Amazon, de Netflix ou de Google. Il n’est pas facile de recommander un médicament comme Amazon peut recommander un livre ou Netflix recommander un film.

Habituellement le Big Data est défini par la règle des « 3V » : Variété, Vitesse et Volume. Pierre-Antoine Gourraud définit le Big Data en médecine par cinq lettres : V comme variété car les données de santé sont composites, N comme nombre (trop grand ou au contraire pas suffisant pour traiter certaines pathologies), K comme catégories (la définition d’une maladie peut changer avec la connaissance sur cette pathologie qui évolue avec le temps), P comme probabiliste (la donnée comporte souvent une incertitude) et T comme temps long (les données suivent un patient pendant en moyenne 10 à 15 ans - notons que ce paramètre s’oppose au V comme Vitesse dans l’usage courant du Big Data. Notons également qu’ici, seul le V de Variété est commun entre le Big Data spécifique à la médecine et le Big Data commun.

Et Pierre-Antoine Gourraud souligne que les données médicales ne parlent pas d’elles-mêmes. Un Data Scientist, dans le domaine de la santé doit savoir traiter les données, mais aussi comprendre le contexte dans lequel ces données ont été obtenues.

« La clinique des données » du CHU de Nantes
Pierre-Antoine Gourraud a créé avec ses collègues « La clinique des données » pour s’assurer que les données sont bien utilisables. Aux 3V du Big Data (volume, variété, vitesse), on peut ajouter deux autres V : valeur et véracité, car les données augmentant très rapidement en volume et en nombre, et les outils pour les traiter offrant toujours de meilleures performances, la qualité des données devient un enjeu central.

Dans cette clinique des données, le personnel médical peut venir en consultation pour poser des questions sur l’extraction et l’utilisation des données qui leur sont nécessaires. Cette clinique des données assure également des sensibilisations à la sécurité informatique. Pour garantir la protection des données du CHU de Nantes, les informations ne sont pas accessibles directement mais avec l’aide d’un médiateur. Pierre-Antoine Gourraud donne des chiffres du CHU de Nantes : 2,3 millions de patients, 50 millions de données structurées, et plus de 12 millions de documents divers comme des comptes-rendus médicaux.

L’entrepôt de données est conforme au RGPD. Un DPO en prend soin, des analyses d’impact (PIA) et de risques sont pratiquées. La CNIL a été associée aux travaux dès le début du projet. Les patients ont été informés de manière individuelle et peuvent éventuellement s’opposer à l’usage de tout ou partie fait de l’usage de leurs données personnelles. Leurs droits sont ainsi préservés et le grand public va également être informé. La confiance peut alors s’installer.

La gouvernance de ces données obéit à un certain nombre de principes : L’accès direct aux données n’est autorisé, que par l’intermédiaire de « datamarts » à durée limitée. Précisons que le rôle d’un datamart est de retraiter l’information brute pour la rendre exploitable par des spécialistes.

Tout accès est transparent et tracé. Un gros effort est fait sur l’anonymisation des données, autant que faire se peut. Bien entendu le personnel de la clinique des données est formé, sensibilisé à la sécurité et habilité à accéder aux données médicales. Vers la démocratisation de l’accès des chercheurs aux données de santé, les CHU peuvent être des structures locales avec un accompagnement assuré par des experts.

Mais comment traiter les données médicales très sensibles ?
Le partage des données est un sujet très complexe. Les enjeux peuvent être règlementaires, éthiques, scientifiques, politiques, financiers… Si les données sont sensibles, elles doivent être impérativement protégées et les accès doivent être surveillés. La confidentialité et l’intégrité de ces données doivent être assurées. Un contrôle d’accès strict et une traçabilité doivent être mis en place.

Pour assurer une certaine anonymisation, les données doivent être transformées en « avatars », c’est-à-dire ne pas être des données brutes collectées mais des données simulées qui approchent au plus près possible les données brutes. Ceci est un travail pour les Data scientists. Pierre-Antoine Gourraud donne des exemples d’avatarisation comme par exemple en génétique. Les détails d’un gamète, qui est une donnée numérique évidemment très sensible, sont combinés avec les détails d’autres gamètes. Le chromosome numérique obtenu, n’est plus une donnée sensible, c’est une « gamète de synthèse, avatarisée ». Elle ne peut pas être utilisée en recherche de paternité mais le résultat peut être utilisé dans la Recherche.

Les données avatarisées peuvent néanmoins rester sensibles. La question posée par Pierre-Antoine Gourraud, à la fin de sa conférence est : Une donnée de santé individuelle d’un patient ne devrait-elle pas être utilisée que pour le soin de ce patient ? Et dans les autres cas, comme pour la Recherche, comme pour des tests d’applications ou autres, ne devrait-on pas n’utiliser que des données de synthèse ? Et cet exemple devrait être suivi dans d’autres domaines comme le secteur bancaire ou l’assurance.

Les participants quittent l'Espace culturel des Quinconces pour un très bon déjeuner pris en commun à la Brasserie des Jacobins en face de la place des Quinconces, à l’ombre de la cathédrale Saint Julien, où, en ce troisième jour du congrès, les opportunités de nouer des relations de travail et des amitiés ne manquent pas. Foie Gras Chutney, dos de cabillaud sauce safran, poêlée de légumes au Combawa, tarte tatin, le tout arrosé d’un excellent Saumur Champigny… Je ne vous dis pas

Gérard PELIKS CNSSIS Soyez le premier à réagir

Usages, gouvernance et partage des entrepôts de données biomédicaux (Le compte-rendu de Gérard Péliks)

Usages, gouvernance et partage des entrepôts de données biomédicaux (Le compte-rendu de Gérard Péliks)

Partager ce document sur les réseaux