- Titre : Collection and analysis of operator-side mobile phone datasets
- Présentateur : Razvan Stanica (INRIA - AGORA)
- Résumé : Mobile phone data represents a major source of information regarding human mobility and digital behaviour. In this talk, we will explain how mobile operators collect such data, and how they post-process it. We will also look at some results obtained on mobile phone data in the context of several ANR projects in the last decade.
- Sujet de recherche associé : Travaux antérieurs au projet
(*) Documents accesibles via l'authentification du portail MOBIDEC
Afficher le compte rendu
- Présentation sur les données collectées par les opérateurs de téléphonie mobile dans le cadre du projet Mob Sci-dat Factory
- Objectifs : comprendre comment ces données sont collectées, ce qu'on peut obtenir des opérateurs, et examiner des résultats de recherche utilisant ces données
- Focus sur les résultats plutôt que sur la méthodologie détaillée
- Le réseau mobile comprend l'équipement utilisateur (téléphone), les stations de base (antennes), et les réseaux de données
- Un opérateur ne peut localiser un utilisateur que lorsque le téléphone est actif, avec une précision limitée à la granularité de l'antenne
- Obligation légale en France de conserver les données personnelles des abonnés pendant un an
- La collecte se fait principalement au niveau des gateways plutôt qu'au niveau des stations de base (plusieurs gigas de données par heure au niveau des antennes)
- Les opérateurs peuvent identifier les services utilisés (Netflix, Spotify, etc.) même si le contenu exact est chiffré
- Données par utilisateur : format original collecté par l'opérateur, lié à l'activité de l'utilisateur
- Fréquence d'échantillonnage variable, dépend de l'utilisation du téléphone
- Plusieurs centaines de points par jour en 4G/5G grâce aux applications en arrière-plan
- Données extrêmement complexes d'accès d'un point de vue juridique
- Précision limitée : une personne immobile dans un bâtiment peut apparaître connectée à trois antennes différentes
- Données agrégées par station de base : ce qui est commercialement disponible (Orange Flux Vision/Géostatistique, anciennement SFR)
- Données périodiques avec fréquence contrôlée (10 min, 15 min, 1 heure)
- Compteurs d'utilisateurs par région géographique et période de temps
- Possibilité d'obtenir des flux de mobilité entre régions
- Limitation importante : granularité très variable selon la densité d'antennes - fine en centre-ville, très large en zones périphériques
- Attention aux promesses des opérateurs sur des zones précises - les calculs de désagrégation ne sont pas toujours bien documentés
- Étude avec quatre volontaires ayant accepté le partage de leurs données GPS et Orange
- Comparaison des trajectoires GPS réelles vs. trajectoires reconstruites à partir de données mobiles
- Avec uniquement les données CDR (Call Detail Records) : approximation grossière
- Avec les données du plan de contrôle (NSD) : amélioration significative
- Avec la méthode d'agrégation développée : trajectoires très proches du GPS
- Limite : échantillon très restreint, non représentatif de populations entières
- Analyse sur 6 villes en France (données Orange) et 4 villes en Italie (données Telecom Italia)
- Classification des heures de la semaine selon les profils d'activité : heures de travail, soirées, nuit, week-end, moments de déplacement matin/soir
- Variations entre villes : la journée de travail commence 1-2 heures plus tôt à Lyon qu'à Paris
- Détection d'anomalies et d'événements spécifiques (exemple : période de Noël à Milan)
- Construction de signatures spatiales (profils dans l'espace) à partir des données Orange et Telecom Italia
- 30 profils identifiés, certains présents dans plusieurs villes, d'autres uniques
- Signatures typiques identifiées :
- Zones résidentielles (différences France/Italie)
- Zones de bureaux (activité journalière, peu d'activité soir et week-end)
- Centres commerciaux en France (fermés le dimanche, contrairement à l'Italie)
- Gares de train (profil spécifique dans les deux pays)
- Stations de métro à Paris (couverture de 90% des arrêts)
- Méthodologie appliquée dans plusieurs projets ultérieurs avec Orange et SFR
- Comparaison entre données Orange (Flux Vision) et capteurs de détection installés par l'équipe dans une zone d'activité
- Corrélation forte : coefficients de corrélation supérieurs à 0,8-0,9, proches de 1
- Décalage temporel important : corrélation maximale avec un délai de 30 minutes en moyenne entre arrivée réelle et détection mobile
- Pics d'activité : les pics détectés dans les données mobiles sont retardés de 30 minutes à 1 heure par rapport aux pics réels dans 60% des cas
- Conclusion : les données opérateurs représentent bien la réalité mais ne sont pas un compteur instantané
-
Complexité juridique d'accès aux données individuelles (RGPD)
-
Précision variable selon la densité d'antennes et le type de zone
-
Granularité spatiale très hétérogène entre centre-ville et périphérie
-
Décalage temporel entre mobilité réelle et détection dans les données
-
Nécessité de bien comprendre les limitations avant d'acheter des données auprès d'opérateurs