CR de la réunion IADB du 27 mai 2017 (Kick-off)

Transparents

IADB est un "projet spécifique" attaché à l'axe structurant "Data Sciences" de l'Idex et financé directement par le bureau. Il s'agit de l'un des grands projets financés par l'Idex et il sera regardé de prêt (je viens d'ailleurs de recevoir une première demande d'information pour mettre le projet en lumière dans le cadre de l'évaluation de la première année de l'Idex...). Le projet prévoyait le financement de 3 thèses et s'il est acquis (avec revalorisation des financements de thèse pour alignement sur la grille de l'Idex), il nous est demandé si l'un de ces 3 financements peut être transformé en postdoc et reporté sur l'appel conjoint UCA-Ville de Nice. La durée du projet ne devra pas dépasser 42 mois (contraction du calendrier initial sur 48 mois).

Le projet prévoit 2 axes sur l'intégration de données biomédicales, hétérogènes, structurées ou non, et sur les chaînes de traitement de données en particulier exploitant le deep learning. 3 sujets de thèses sont proposés, tous transverses entre les différents partenaires, de manière à assurer une bonne cohésion du projet. Nous devons mettre en place une structure de gouvernance et de suivi des travaux de thèse qui devra se réunir périodiquement (tâche 1 du projet). Les tâches 2 et 3 correspondent aux 2 axes scientifiques. La tâche 4 traite de l'exploitation des résultats et la tâche 5 porte sur la dissémination des résultats (publications et supports pédagogiques).

Le budget demandé comprend outre les salaires le financement de missions, des gratifications de stage et un peu de matériel.

Une liste de 10 jalons a été mise en place (voir transparent 9) sur un calendrier un peu resserré pour passer de 48 à 42 mois. Il nous sera demandé de produire régulièrement des indicateurs de suivi de projet.

Présentation des activités existantes:

1. I3S
- Intégration de données biomédicales (thèses de F. Michel et A. Macina). Interrogation de données hétérogènes et distribuées. Format pivot construit sur les standards du we b sémantiques (RDF, ontologies, SPARQL). Réécriture de requêtes pour s'adapter aux moteurs de BD utilisés (notamment NoSQL). Traitement efficace des requêtes distribuées.
- Apprentissage profond sur des données de dossiers médicaux avec des ressources de calcul modestes (thèse de J. Garcia Henao). Exploitation de masses de données structurées mais brutes (données démographiques, EHR, cliniques, médicamentation...) pour prédire des informations telles que les durées d'hospitalisation ou produire des pronostiques. Travail en cours sur les données collectées en PACA.
- Détection des effets secondaires de la médicamentation (thèse de E. Florez). Apprentissage sur des données de prescription extraite de l'EHR de médecins généralistes. Utilisation de réseaux récurrents pour apprendre la séquentialité des interactions qui caractérisent les effets médicamenteux combinés indésirables.
- Challenge "PhysioNet Computing in Cardiology" (stage de M. Liman). Utilisation d'un modèle d'apprentissage avec couches convolutionnelle, récurrente et "free forward" pour la réponse au challenge.
- Analyse d'images et techniques d'apprentissage (V. Zarsozo). Applications à la classification de cellules, à la segmentation, et à l'analyse de signaux électro-physiologiques. Intérêt particulier pour l'étude de l'arythmie cardiaque. Données ECG et EGM (électrogrammes internes des oreillettes) disponibles en collaboration avec le CHPG à Monaco.

2. CHUN
Gestion des données médicales du CHUN (et plus récemment de l'ensemble des 14 établissements publics du département). Possibilité d'accès à des données anonymisées pour les activité de recherche du projet. Données compartimentées par secteur (données administratives hospitalières, données de médecine ambulatoire, prescriptions, et potentiellement données de biologie, cardiaques, voire omiques). Un corpus de données hospitalières structurées déjà exploitées (cf ci-dessus travail de thèse de J. Garcia). Des données non structurées (CR d'hospitalisation et d'imagerie) en cancérologie (tube disgestif) et en cardiologie (angioplastie) mis à disposition pour le travail en TAL sur les compte rendus médicaux.

3. BCL
Analyse des structures grammaticales et syntaxique des textes. Approches statistiques (ACP) pour rechercher les déterminants spécifiques les plus discriminants d'un discours. Application aux discours de la campagne présidentielle (démonstration de la plateforme de logométrie en ligne). Début d'introduction de techniques de deep learning dans ce domaine. Des applications spécifiques potentielles à la détection de discours suicidaires ou schizophrènes dans les réseaux sociaux. S'adapter au discours scientifique en général et médical en particulier dans le cadre du projet.

4. MSI
Mise en place du "Medical Data Centre" à l'Archet par UCA. Celui ci concerne principalement les données omiques. 3 ingénieurs en cours de recrutement seront rattachés au centre à la rentrée de septembre. Les moyens de calcul sont disponibles à travers les plateformes de calcul coordonnées par le projet OPALE.