- Titre : Mise en forme des données du data-challenge de NetMob 2025 à l’aide des données de l’enquête EMG
- Présentateur : Anne-Josiane Kouam Djuigne (INRIA) et Alexandre Chasse (IFPEN)
- Résumé : L'objectif principal est de mettre en place le dataset partagé aux étudiants participants au data-challenge de NetMob 2025 à partir des données de l’enquête EMG mis à disposition de l’Institut Paris Région. Nous présenterons dans un premier temps ce dataset qui a été intégré dans la plateforme MOBIDEC. Et partagerons les traitements réalisés notamment la mise en place une méthodologie de suppression de certains coordonnées points des traces GPS afin d’anonymiser les traces GPS. Nous évoquerons également comment l’on propose de capitaliser l’ensemble des travaux réalisés par les étudiants sur la plateforme MOBIDEC.
- Sujet de recherche associé :
(*) Documents accesibles via l'authentification du portail MOBIDEC
Afficher le compte rendu
- En 2022, un consortium de partenaires publics et privés s'est créé (départements, villes, RATP, IDFM, Transdev, IFPEN, etc.) pour disposer de données récentes sur la mobilité des Franciliens
- Les dernières données disponibles dataient de l'Enquête Général Transport (EGT) de 2019, interrompue par la pandémie
- L'enquête EMG (Enquête Mobilité par GNSS/GPS) a été menée par l'Institut Paris Région pour diversifier la connaissance des mobilités un an et demi après le Covid-19
- Il s'agit d'une expérimentation basée sur une méthodologie innovante de recueil passif via traces GPS
- 3 337 Franciliens de 16 à 80 ans ont porté des traceurs GPS pendant 7 jours consécutifs
- Enregistrement d'un point GPS toutes les 2 secondes lors des déplacements (pas pendant l'immobilisation)
- Approche mixte combinant : traces GPS automatisées, journal de bord numérique ou papier rempli quotidiennement, et entretien téléphonique de validation
- Période de collecte : 20 semaines de mi-octobre 2022 à mi-mai 2023, hors vacances scolaires
- Découpage automatique des traces en déplacements avec association de motifs et moyens de transport
- Mode de recueil : hybride (GPS + entretiens) vs purement déclaratif pour l’EGT
- Durée : 7 jours consécutifs vs 1 journée pour l’EGT
- Permet de capter la variabilité de la mobilité sur une semaine complète
- Méthodologie différente, donc pas comparable directement avec l'EGT pour mesurer l'évolution
- Taux de sondage moyen par individu significatif et représentatif
Trois bases principales mises à disposition (quatrième en retard) :
- Base Individu : 3 337 lignes avec caractéristiques démographiques et commune d'habitation
- Base Déplacements : origine, destination, motif, moyen de transport pour chaque déplacement
- Base Traces : tous les points GPS collectés sur l'ensemble des enquêtés
- Données disponibles sur le portail MOBIDEC avec documentation complète en PDF
- Nettoyage et harmonisation :
- Suppression des enregistrements incomplets
- Harmonisation et traduction en anglais pour la communauté internationale
- Cohérence entre les trois sources de données
- 20 participants sans fichier GPS identifiés mais conservés dans la base
- Anonymisation :
- Suppression de tous les enregistrements GPS entre deux déplacements (micro-mouvements non pertinents)
- Protection des points d'intérêt via tessellation H3 (hexagones résolution 10)
- Remappage des points GPS de début/fin de déplacement au centroïde de l'hexagone
- Filtrage des champs pour garder les informations les plus utiles
- Fichier Individu :
Pseudonyme, code géographique municipalité, sexe, âge, niveau d'éducation, catégorie socioprofessionnelle, type de ménage, nombre de personnes, mobilité réduite, permis de conduire, nombre de véhicules, souscriptions transport, poids statistique, présence traces GPS
- Fichier Déplacements :
ID individu, date, type de jour, numéro déplacement, localisation (intérieur/extérieur Île-de-France, départements, villes, codes INSEE origine/destination), horaires début/arrivée, motifs, moyen de transport principal, poids statistique
- Fichier GPS :
Timestamp (local et UTC pour gérer changement heure été/hiver), qualité enregistrement (differential GPS), latitude, longitude, vitesse
- Niveau individuel :
- Distribution d'âge : majorité autour 40-50 ans avec pic 16-20 ans
- Distribution par département : forte représentation Paris intra-muros, 92, 93
- Prise en compte des poids pour se rapprocher de la réalité de la population
- Niveau déplacements :
- Pics de collecte en octobre-novembre 2022 et juin-juillet 2023, creux pendant vacances
- Rythme circadien : peu de déplacements la nuit, pics matin et fin de journée
- Moins de déplacements le week-end, pic mardi-mercredi
- Moyenne de 23 déplacements par individu sur la semaine
- Durée par mode de transport :
- Distribution métro similaire au train (durées légèrement plus longues en train)
- Voiture privée : temps de déplacement beaucoup plus longs que taxi
- Vélo électrique : déplacements plus courts que vélo normal
- Bus similaire au métro, tram plus court
- Flux spatiaux :
- Paris : 26% des déplacements restent intra-muros
- Petite Couronne : 26% de déplacements internes
- Grande Couronne : 35% de déplacements internes
- Beaucoup de flux de Petite/Grande Couronne vers Paris, peu entre les deux couronnes
- Analyse spatiale :
- Cadrillage INSEE : 5 142 cellules IRIS représentées sur 5 264 totales
- Analyse des déplacements par zone IRIS, par date et par heure
- Forte représentativité du département 75 (Paris)
- Dynamique circadienne visible avec pics d'activité matin et fin de journée
- Densité :
- Métrique densité d’une zone pour une période donnée estimée par (personnes à l'intérieur + moyenne entrants/sortants) / taille zone
- Beaucoup plus grande densité au centre de Paris
- Densité se dilue vers Petite et Grande Couronne
- Quelques cellules à forte densité dispersées en Île-de-France
- Distance et temporalité :
- 90% des individus se déplacent jusqu'à 20 km
- Pas de gros changements selon jours de semaine
- Déplacements plus longs l'après-midi et le matin vs autres périodes
- Modes de transport :
- Voiture : peu utilisée en semaine, pic d'utilisation en fin de semaine
- Vélo et marche : distribution similaire, beaucoup moins de déplacements en vélo
- Train et métro : forte similarité d'utilisation
- Multimodalité :
- Bus : 73% arrivent directement à destination, 16% utilisent train en plus, 4% métro
- Voiture : 98% directement à destination (le moins multimodal)
- Vélo : 94% directement à destination
- Train : le mode avec le plus faible pourcentage de trajet direct, conduit le plus à la multimodalité
- Train multimodal : combinaisons avec métro et bus
- Métro : changements fréquents métro-métro ou métro-bus
- Publication et documentation :
- Accès aux données :
- 108 demandes d'accès via formulaire (équipes de 2 à 10 personnes)
- Accès cadré par NDA signé par l'institution et chaque membre de l'équipe
- 68 équipes ont complété le processus et reçu les données
- Résultats du Challenge :
- 58 soumissions d'abstract de 2 pages
- 15 présentations orales acceptées et 38 posters
- Sujets très diversifiés : inégalités, simulation, patterns jour/nuit, pollution, privacy, multimodalité, optimisation transport, mobilité urbaine, commuting, anonymité
- Richesse du dataset :
- Collecte passive augmentée par reporting volontaire des participants
- Information sur motifs de déplacements sur 7 jours
- Grande échelle géographique avec représentativité via poids statistiques
- Permet de retrouver des patterns à l'échelle de toute la région
- Potentiel et suite :
- Énorme potentiel démontré par la diversité des sujets traités dans le Data Challenge
- Discussions prévues pour publier la donnée via portail MOBIDEC
- Simplification du processus d'accès envisagée (éviter NDA systématique si possible open data)
- Attention à la représentativité statistique : ne pas descendre à une maille géographique trop fine (éviter échelle IRIS, privilégier regroupements communes ou EPT)
- 20 participants n'ont pas de fichier GPS mais sont conservés dans la base individu pour les statistiques
-
Documentation complète disponible sur le portail MOBIDEC
-
Statistiques socio-économiques et slides dynamiques sur le site de l'Institut Paris Région (48 slides)
-
Page Data Challenge NetMob avec liens GitLab et papier arXiv