#28 - Innover en santé grâce aux Data Challenges

Innovation

Durée de l’épisode 00:14

Avec le Dr Frédéric Staroz, anatomopathologiste et Président du Conseil National Professionnel des Pathologistes.

00:00:00
G_NIUS: 100 jours pour réussir. C'est le podcast de G_NIUS, le Guichet national de l'innovation et des usages en e-santé. Autour de Lionel Reichardt, retrouvez les innovateurs de la e-santé et les experts incontournables pour vous aider à réussir dans vos projets.

00:00:20
Lionel Reichardt: Bonjour à tous. Vous écoutez 100 jours pour réussir, le podcast à destination des innovateurs et entrepreneurs dans le numérique en santé, mais aussi de toute personne curieuse de ce domaine. Ce podcast est produit par G_NIUS, le Guichet national de l'innovation et des usages en e-santé. Pour cet épisode consacré aux Data Challenge et à leur place dans l'innovation en santé, j'ai le plaisir de recevoir le docteur Fréderic Staroz, anatomopathologiste associé à Ouest Pathologie, membre de la Société Française de pathologie et responsable du projet VisioMel. Docteur Frédéric Staroz, bonjour.

00:01:04
Dr Frédéric Staroz: Bonjour Lionel.

00:01:05
Lionel Reichardt: Tout d'abord docteur Staroz, pouvez-vous rapidement nous rappeler ce qu'est l'anatomopathologie et quelle place a la donnée dans cette spécialité ?

00:01:14
Dr Frédéric Staroz: Anatomo-cyto-pathologie est une spécialité médicale qu'on peut connaître, soit sous le nom d'anatomo-cyto-pathologie, pathologiste ou plus familièrement un apathe. C'est une spécialité dont le but est vraiment de faire du diagnostic médical à partir de prélèvements, qui sont des prélèvements biopsiques ou des prélèvements chirurgicaux. Elle est aussi assez connue par le cas du dépistage du cancer du col de l'utérus, avec l'examen notamment des frottis cervicaux utérins. On intervient énormément en cancérologie, dans tous les dépistages. Cancer du sein, cancer du côlon, mais aussi dans des pathologies inflammatoires. Au-delà de ce rôle diagnostique, de plus en plus, on intervient dans la définition de critères de pronostic pour savoir si les maladies sont graves, pour un diagnostic donné et également de plus en plus dans ce qu'on appelle le théranostique. C'est-à-dire la capacité à prédire la sensibilité d'une maladie donnée à un traitement donné. Soit par des biais de techniques assez classiques, soit par des biais de techniques en génétique somatique.

00:02:12
Lionel Reichardt: En 2020, la Société française de pathologie a organisé avec le Health Data Hub son premier Data Challenge. Est-ce que vous pouvez nous dire ce qu'est un Data challenge ? En quoi consistait ce premier Data Challenge avec le Data Hub ? Qui a réuni, je crois, plus de 500 participants à travers le monde ?

00:02:28
Dr Frédéric Staroz: Tout à fait. C'est une initiative qui avait été prise à l'époque par le Health Data Hub, en coopération avec la Société française de pathologie, pour avoir la faisabilité d'un Data Challenge de ce type en médecine. L'intérêt pour notre spécialité, c'était de pouvoir contribuer à élaborer des algorithmes d'intelligence artificielle. Un Data Challenge, c'est une compétition qui est organisée à visée des data scientists. Le but dans ce type de Data Challenge des participants, c'est de constituer une banque de données. En l'occurrence, pour ma spécialité, ce sont des données de type images. Images numériques, images histologiques numérisées à partir desquelles, les data scientists doivent répondre à une question médicale qui a été posée à la base de la compétition. Ce sont les meilleurs algorithmes, c'est-à-dire ceux qui ont la plus grande capacité à répondre correctement à la réponse médicale posée qui, à la fin, vont gagner le prix avec trois gagnants.

00:03:30
Dr Frédéric Staroz: Pour ce premier Data Challenge, on a pu travailler avec une société, en l'occurrence américaine, DrivenData, qui est spécialisée dans l'organisation de ce type de compétition. Soit dans le domaine médical, soit dans d'autres types de domaines. L'intérêt de travailler avec cette société, c'est qu'elle a une très grande expérience dans ce domaine et donc un réseau de compétiteurs très étendu et une capacité à toucher des universitaires, des entrepreneurs, des industriels, voire des data scientists isolés. Ce qui fait qu'on a pu toucher énormément de personnes, en gros dans toute la communauté des data scientists internationale, ce qui est bien entendu intéressant. Le but est vraiment d'essayer de contribuer à produire des algorithmes d'intelligence artificielle capables d'aider à résoudre une question médicale, soit à visée diagnostique, soit autre. Il y a un intérêt médical évident et aussi un intérêt pour les compétiteurs de disposer de cette base de données médicales qui sont en général assez difficiles à obtenir, qui sont des données contrôlées et des données de qualité.

00:04:35
Lionel Reichardt: Si je ne me trompe pas, vous avez réuni à peu près 5.000 lames de biopsie et vous me disiez qu'une lame de biopsie, c'est un gigaoctets de données. C'est ça ?

00:04:46
Dr Frédéric Staroz: Oui. Parce qu'au départ, ce sont des lames porte-objet comme on pouvait en faire quand on était au lycée ou au collège, qui sont des prélèvements qui sont en général d'assez petites tailles, mais elles sont numérisées ensuite à un agrandissement de fois 400. Pour vous donner un ordre d'idée, c'est qu'un prélèvement qui ferait juste un centimètre sur un centimètre, quand vous le numériser à un agrandissement fois 400, ça revient à numériser une image de quatre mètres sur quatre mètres. Évidemment, ça fait des quantités de données qui sont très importantes, d'autant plus que nos prélèvements ne sont pas en noir et blanc, mais en couleur. On rajoute à la numérisation d'une image. J'essaie de comparer par rapport à la numérisation des images en radiologie, qui sont souvent en noir et blanc. Nous, on rajoute en plus de la couleur. Cela fait donc énormément de données. Dans le Data Challenge qu'on est en train de faire sur le mélanome, on va arriver sur une moyenne d'à peu près un gigaoctets par lame. Certaines vont jusqu'à quatre gigaoctets, donc ça fait une quantité très importante de données pour un seul prélèvement.

00:05:53
Lionel Reichardt: On va en parler tout à l'heure du projet VisioMel. Avec ce premier Data Challenge, qu'est-ce que vous avez appris ? Quels sont les bénéfices pour les différentes parties impliquées ? Le Health Data Hub, les médecins, les patients, les industriels, les data scientists ?

00:06:07
Dr Frédéric Staroz: Je vais commencer par le Health Data Hub. Déjà, ils ont montré que c'était un format qui intéressait à la fois la communauté médicale et la communauté des entrepreneurs, des data scientists, puisque la participation a été importante. Vis-à-vis de la communauté médicale et en l'occurrence des pathologistes, on est assez heureux dans le cadre d'une société de savante. C'est-à-dire dont le but est d'essayer d'améliorer, en tous les cas de contribuer à l'innovation médicale, de pouvoir contribuer à développer des algorithmes qui, ensuite, vont nous aider dans notre pratique quotidienne. Sachant qu'on est un peu en déficit de médecins pathologistes ou qu'il y a effectivement un travail qui est de plus en plus complexe. On voit d'un assez bon œil l'arrivée de l'intelligence artificielle qui va nous aider à répondre aux défis qui vont être les nôtres dans les années qui viennent.

00:06:58
Dr Frédéric Staroz: Bien entendu, pour les entrepreneurs, ça leur permet aussi de disposer de données médicales qui sont vraiment très compliquées à obtenir dans le cadre du RGPD, dans la protection des données de santé. De données médicales qui sont de qualité, avec un intérêt ensuite pour le patient. Il y a des développements industriels possibles. D'ailleurs, la société qui, pour ce Data Challenge, a gagné est une société commerciale. C'est un entrepreneur qui avait déjà développé un certain nombre d'algorithmes dans le cadre de la pathologie et qui devrait pouvoir, avec l'algorithme qu'elle a développé, développer ou mettre potentiellement sur le marché un outil d'IA dans le cadre du cancer du col. Ce qui était le sujet de ce premier Data Challenge.

00:07:43
Lionel Reichardt: Je crois qu'il y a eu plusieurs dizaines d'algorithmes qui ont été développés. Le principe d'un Data Challenge, c'est souvent de garder ces algorithmes en open source. N'est-ce pas ?

00:07:51
Dr Frédéric Staroz: Effectivement, c'est un peu l'idée. C'est-à-dire que d'une part, les données qui sont rassemblées par la communauté médicale vont rester en open source. Ce sont des projets qui sont académiques. Nous, on met à disposition gratuitement à cette base de données de qualité pour des entrepreneurs. La contrepartie qu'on demande, c'est que l'algorithme qui serait à développer soit aussi en open source, sachant que des développements ou des améliorations ultérieures pourraient être, elles, conserver « plus secrètes », à visée un peu plus commerciale. C'est effectivement l'état d'esprit de ces Data Challenges. Pour le premier, on avait laissé un peu le choix aux entrepreneurs, c'est-à-dire dans tous les cas aux gagnants. Normalement, dans le cadre des Data Challenges, les trois gagnants ont un prix. Sur ce premier Data Challenge, les gagnants qui refusaient le prix pouvaient garder leurs algorithmes et ne pas le diffuser en open source. Pour le prochain Data Challenge, on va demander systématiquement à ce que ces algorithmes soient en open source, puisque ça nous semble assez logique. Nous, on fait l'effort et on contribue à mettre gratuitement à disposition des données de grande qualité. L'idée est de favoriser un peu l'émulation et la diffusion des connaissances pour l'ensemble de la communauté, à la fois médicale et scientifique, sachant que les développements commerciaux ultérieurs sont évidemment possibles.

00:09:14
Lionel Reichardt: Vous l'avez évoqué, un deuxième Data Challenge est en cours et il vient d'être lancé pour l'année 2022-2023. Il s'appelle VisioMel. Quand l'attendez-vous et comment ça va se passer ?

00:09:27
Dr Frédéric Staroz: Ce Data Challenge est un peu particulier parce qu'il réunit, contrairement au premier Data Challenge, plusieurs sociétés savantes et plusieurs spécialités. Ce qui était une demande du HDH pour cette deuxième session de Data Challenge. VisioMel, c'est un consortium, c'est-à-dire une association d'associations et qui réunit à la fois la société française de pathologie, qui était déjà impliquée dans le premier Data Challenge, la Société française de dermatologie, qui est la grande société savante des dermatologues et le Conseil national professionnel des pathologistes qui est une association des médecins pathologistes. Le but de ce Data Challenge est d'essayer de mettre à disposition des data scientists, des données à la fois cliniques et histologiques concernant les mélanomes diagnostiqués à un stade localisé. Les mélanomes sont des cancers de la peau dont le pronostic peut être assez mauvais, surtout s'ils connaissent des évolutions métastatiques.

00:10:35
Dr Frédéric Staroz: Le fait de savoir quand le diagnostic de mélanome est posé à un stade localisé, si la maladie va récidiver ou aura une rechute métastatique est importante, dans la mesure où si cette prédiction est bonne, on pourrait potentiellement proposer à ces patients des traitements dit de néoadjuvant. C'est-à-dire qu'ils vont permettre d'éviter la récidive. Le but de ce Data Challenge est de voir si un algorithme est capable, de façon plus efficace que les méthodes qu'on utilise actuellement, de prédire justement cette récidive dans le but potentiellement de pouvoir proposer à ces patients un traitement préventif. Il y a vraiment un intérêt médical majeur. Si effectivement ça marche, c'est quelque chose qui peut vraiment contribuer à sauver des vies.

00:11:22
Lionel Reichardt: À tous les auditeurs qui seraient intéressés par ce Data Challenge, je les invite à taper dans leur moteur de recherche préféré VisioMel et ils trouveront tous les éléments sur les différents sites des sociétés savantes ou du Health Data Hub pour pouvoir participer et contribuer à ce Data Challenge et en connaître les différentes dates. Pour conclure, Docteur Staroz, quels conseils pouvez-vous donner à des entrepreneurs, des innovateurs en santé qui voudraient participer justement à un Data challenge ?

00:11:49
Dr Frédéric Staroz: Quelque part, la réponse est contenue dans la question. On ne peut que leur conseiller d'y participer. Là, le consortium VisioMel réunit des données à la fois cliniques et donc d'imagerie histologique de 3.000 patients, qui vont être extrêmement sécurisées, totalement anonymisées, avec bien entendu une gestion totalement conforme et éthique des données des patients avec la recherche d'une opposition. Un matériel qui est extrêmement précieux, totalement exploitable, avec par-dessus une question médicale qui a un véritable intérêt. Je pense que pour un entrepreneur, le fait de disposer de ce type de données de façon gratuite a un intérêt très net dans la mesure où il est difficile de prévoir à l'avance si un algorithme est capable ou non de répondre à la question qui est posée. Là, ça permet finalement à des data scientists, qu'ils soient isolés, universitaires ou qu'ils soient dans le cadre de start-up ou d'industries un peu plus développées, déjà de savoir à moindre coût s'il y a effectivement des possibilités pour l'intelligence artificielle de répondre à ce type de question. Ce qui peut dans un second temps, si la réponse est positive, leur permettre de continuer à travailler soit avec VisioMel ou avec d'autres types de partenaires pour développer dans ces cas un algorithme qui pourra avoir des retombées commerciales évidentes et un intérêt médical tout aussi évident.

00:13:23
Lionel Reichardt: Docteur Frédéric Staroz, merci beaucoup. Notre épisode touche à sa fin. Merci de nous avoir écoutés. Nous remercions encore notre invité pour sa disponibilité. N'hésitez pas à vous abonner sur le podcast sur les plateformes d'écoute. Nous vous donnons rendez-vous très bientôt pour un nouvel épisode de 100 jours pour réussir.

00:13:44
G_NIUS: Celles et ceux qui font la e-santé d'aujourd'hui et de demain sont sur le podcast de G-NIUS et toutes les solutions pour réussir sont sur gnius.esante.gouv.fr

 

Les Data Challenges sont des compétitions en science des données qui visent à répondre à des problématiques médicales précises à l’aide de l’analyse des données mises à disposition.

Quels sont les bénéfices de ces Data Challenges pour l’écosystème de santé et les entrepreneurs ? Comment des innovateurs en santé peuvent-ils participer à ces événements ? Réponses avec Frédéric Staroz qui nous présente également le Data Challenge organisé par le consortium VisioMel autour des facteurs pronostiques du mélanome.

Lien vers la fiche action : Data challenges