IADB est un "projet spécifique" attaché à l'axe
structurant "Data Sciences" de l'Idex et financé directement par
le bureau. Il s'agit de l'un des grands projets financés par
l'Idex et il sera regardé de prêt (je viens d'ailleurs de
recevoir une première demande d'information pour mettre le
projet en lumière dans le cadre de l'évaluation de la première
année de l'Idex...). Le projet prévoyait le financement de 3
thèses et s'il est acquis (avec revalorisation des financements
de thèse pour alignement sur la grille de l'Idex), il nous est
demandé si l'un de ces 3 financements peut être transformé en
postdoc et reporté sur l'appel conjoint UCA-Ville de Nice. La durée du projet
ne devra pas dépasser 42 mois (contraction du calendrier initial
sur 48 mois).
Le projet prévoit 2 axes sur l'intégration de données
biomédicales, hétérogènes, structurées ou non, et sur les
chaînes de traitement de données en particulier exploitant le
deep learning. 3 sujets de thèses sont proposés, tous
transverses entre les différents partenaires, de manière à
assurer une bonne cohésion du projet. Nous devons mettre en
place une structure de gouvernance et de suivi des travaux de
thèse qui devra se réunir périodiquement (tâche 1 du projet).
Les tâches 2 et 3 correspondent aux 2 axes scientifiques. La
tâche 4 traite de l'exploitation des résultats et la tâche 5
porte sur la dissémination des résultats (publications et
supports pédagogiques).
Le budget demandé comprend outre les salaires le
financement de missions, des gratifications de stage et un peu
de matériel.
Une liste de 10 jalons a été mise en place (voir
transparent 9) sur un calendrier un peu resserré pour passer de
48 à 42 mois. Il nous sera demandé de produire régulièrement des
indicateurs de suivi de projet.
Présentation des activités existantes:
1. I3S
- Intégration de données biomédicales
(thèses de F. Michel et A. Macina). Interrogation de données
hétérogènes et distribuées. Format pivot construit sur les
standards du we b sémantiques (RDF, ontologies, SPARQL).
Réécriture de requêtes pour s'adapter aux moteurs de BD utilisés
(notamment NoSQL). Traitement efficace des requêtes distribuées.
- Apprentissage profond sur des données de
dossiers médicaux avec des ressources de calcul modestes (thèse
de J. Garcia Henao). Exploitation de masses de données
structurées mais brutes (données démographiques, EHR, cliniques,
médicamentation...) pour prédire des informations telles que les
durées d'hospitalisation ou produire des pronostiques. Travail
en cours sur les données collectées en PACA.
- Détection des effets secondaires de la
médicamentation (thèse de E. Florez). Apprentissage sur des
données de prescription extraite de l'EHR de médecins
généralistes. Utilisation de réseaux récurrents pour apprendre
la séquentialité des interactions qui caractérisent les effets
médicamenteux combinés indésirables.
- Challenge "PhysioNet Computing in Cardiology"
(stage de M. Liman). Utilisation d'un modèle d'apprentissage
avec couches convolutionnelle, récurrente et "free forward" pour
la réponse au challenge.
- Analyse d'images et techniques d'apprentissage
(V. Zarsozo). Applications à la classification de cellules, à la
segmentation, et à l'analyse de signaux électro-physiologiques.
Intérêt particulier pour l'étude de l'arythmie cardiaque.
Données ECG et EGM (électrogrammes internes des oreillettes)
disponibles en collaboration avec le CHPG à Monaco.
2. CHUN
Gestion des données médicales du CHUN (et plus récemment
de l'ensemble des 14 établissements publics du département).
Possibilité d'accès à des données anonymisées pour les activité
de recherche du projet. Données compartimentées par secteur
(données administratives hospitalières, données de médecine
ambulatoire, prescriptions, et potentiellement données de
biologie, cardiaques, voire omiques). Un corpus de données
hospitalières structurées déjà exploitées (cf ci-dessus travail
de thèse de J. Garcia). Des données non structurées (CR
d'hospitalisation et d'imagerie) en cancérologie (tube
disgestif) et en cardiologie (angioplastie) mis à disposition
pour le travail en TAL sur les compte rendus médicaux.
3. BCL
Analyse des structures grammaticales et syntaxique des
textes. Approches statistiques (ACP) pour rechercher les
déterminants spécifiques les plus discriminants d'un discours.
Application aux discours de la campagne présidentielle
(démonstration de la plateforme de logométrie en ligne). Début d'introduction de techniques de deep learning
dans ce domaine. Des applications spécifiques potentielles à la
détection de discours suicidaires ou schizophrènes dans les
réseaux sociaux. S'adapter au discours scientifique en général
et médical en particulier dans le cadre du projet.
4. MSI
Mise en place du "Medical Data Centre" à l'Archet par
UCA. Celui ci concerne principalement les données omiques. 3
ingénieurs en cours de recrutement seront rattachés au centre à
la rentrée de septembre. Les moyens de calcul sont disponibles à
travers les plateformes de calcul coordonnées par le projet
OPALE.