- Titre : Mise en place de la première version de la plateforme partagée pour le stockage et le traitement des données de mobilité
- Présentateur : Nicolas Gillet (IFPEN)
- Résumé : L'objectif est de développer une infrastructure informatique sécurisée et évolutive pour le stockage, le partage et le traitement des données de mobilité, intégrant des sources de données variées pour l’ensemble des chercheurs du programme MOBIDEC. Une première version du portail web centralisé a été mis en place pour un accès sécurisé aux données, bibliothèques open-source, visualisations interactives et outils collaboratifs. Ce portail vous sera présenté afin que vous puissiez le prendre en main et nous échangerons également sur vos attentes de contenu et d’évolution.
- Sujet de recherche associé :
(*) Documents accesibles via l'authentification du portail MOBIDEC
Afficher le compte rendu
- Infrastructure basée sur Kubernetes pour haute disponibilité, scalabilité et isolation des applications
- Hébergement sur OVH Cloud (serveurs français) avec gestion des accès via KeyCloak
- Portail d'entrée unique via https://portail.pepr-mobidec.fr/ WordPress) avec système d'authentification centralisé
- Services managés pour les composants critiques (base de données utilisateurs)
- S'appuie sur l'expérience interne IFPEN Mobicloud avec les bonnes pratiques cloud (Docker, déploiement continu, monitoring)
- Open Data Soft : portail principal pour échantillons de données avec interface intuitive, visualisations intégrées (cartes, graphes) et API automatiques
- Limitation : solution propriétaire avec coûts liés au volume et trafic
- CKAN : portail complémentaire pour jeux de données plus volumineux, moins user-friendly mais maîtrise des coûts
- Possibilité de référencer des données externes sans les dupliquer
- Gestion fine des accès et droits pour données sensibles
- Données de l'enquête mobilité Paris-Région déjà disponible
- Organisation GitHub Mobidec créée pour centraliser les codes, scripts et notebooks du projet
- GitHub Pages pour catalogue des productions (briques algorithmiques, outils, documentation)
- Catalogue alimenté via fichiers Markdown simples permettant contribution de tous
- Référencement des travaux CEREMA, Data Challenge NetMob, outils de calcul d'itinéraire
- Discourse : forum pour échanges, questions et partage de retours d'expérience
- Permet capitalisation des connaissances et communications entre membres
- Wiki : pour documentation, archivage des webinaires, newsletters, livrables
- Fiches des sujets de recherche à intégrer
- MinIO : stockage d'objets S3 pour données non structurées volumineuses (archives, vidéos)
- Schémas de données avec descriptions de colonnes, unités et types
- Glossaire pour définir les termes techniques (enquête mobilité, FCD, données téléphoniques)
- Importance de documenter chaque dataset pour faciliter compréhension et réutilisation
- Système de rôles via KeyCloak : accès de base pour tous, restrictions pour données sensibles
- Pour données complètes (ex: Orange), demande d'accord spécifique requis
- Rôles différenciés : data user (consultation) vs contributeur (dépôt de données)
- Traçabilité des accès aux données massives importante
- Solution Airflow identifiée pour traitements automatisés mais besoin à valider collectivement
- Question de l'arbitrage entre plateforme de calcul massive (coût élevé) vs manipulation de petits jeux de données
- Proposition de notebooks Jupyter pour manipulation interactive de données
- Inspiration Google Colab pour environnement d'exécution transparent
- Importance d'avoir du code exécutable avec échantillons de données
- Discussion sur intégration avec Enoa-X et leurs connecteurs de données via smart contracts
- Question de l'utilisation de Zotero pour bibliographie collaborative
- Liens possibles avec projets européens et internationaux similaires
- Importance du référencement via DOI pour données publiques et Software Heritage pour codes open source
- Plateforme évolutive, outils non figés, à enrichir selon besoins
- Retours d'usage importants pour amélioration continue
- Vocation à servir l'ensemble du PEPR Mobidec et autres projets cibles
- Accent sur collaboration : tous peuvent contribuer et faire évoluer la plateforme
- Besoin de pérenniser l'outil au-delà de la durée du projet
-
Accès aux données après fin du projet (2031) à anticiper
-
Taille des espaces de stockage à dimensionner correctement
-
Balance entre centralisation et référencement de données externes
-
Visibilité du projet et des partenaires sur site web public à améliorer