- Titre : Investigating different perspectives on vulnerability in mobility datasets
- Présentateur : Lucas Felix (INRIA)
- Résumé : Mobility data offers rich insights into human behavior, enabling applications in transportation, retail, and marketing, among others. However, such data also entails significant privacy risks, as the singularity of individual mobility patterns can reveal user identities. Existing metrics for quantifying user exposure predominantly focus on spatio-temporal singularity (e.g. Uniqueness), overlooking behavioral traits that may also contribute to re-identification. In our ongoing research, we tackle this overlooked part of exposure, evaluating users' behavioral exposure. We propose two novel techniques that quantify the users' exposure. Our contributions are not limited to the quantification, but also the interpretation of the users' exposure, allowing data owners to individually address the exposure of users, potentially maximizing privacy and data utility. We evaluated our proposal in two distinct Call Detail Record (CDR) datasets. Our results suggest that only observing the locations in time of users is not enough to fully capture users' exposure, and that behavior can be a more interpretative proxy for doing so.
- Sujet de recherche associé : Action 121 - Understanding what makes mobility in behaviours vulnerable to privacy attacks
(*) Documents accesibles via l'authentification du portail MOBIDEC
Afficher le compte rendu
- Le projet a été initialement prévu pour un postdoc, mais a été transformé en thèse de doctorat suite à une collaboration IST-CAMSUD entre Nadjib, Aline et Anne-Josiane
- Lucas Félix effectue une thèse en cotutelle entre l'Université Fédérale de Minas Gerais (Brésil) avec Jussara Almeida, et l'Institut Polytechnique de Paris avec Anne-Josiane et Nadjib Achir
- Lucas a passé 12 mois à l'INRIA dans l'équipe TRIBE et est maintenant retourné au Brésil
- Les données de mobilité servent de signature du comportement humain et sont utilisées pour diverses applications (systèmes de recommandation, urbanisme)
- Cependant, ces données peuvent être exploitées à des fins malveillantes : seulement quatre points spatio-temporels suffisent pour réidentifier 95% des utilisateurs
- L'exposition des utilisateurs ne se limite pas aux dimensions spatio-temporelles, mais inclut également des dimensions comportementales peu étudiées
- Les techniques de protection actuelles (k-anonymat, differential privacy) appliquent un niveau de protection uniforme à tous les utilisateurs, ce qui réduit considérablement l'utilité des données
- Découvrir les patterns d'exposition comportementale cachés dans les datasets de mobilité
- Permettre de guider les mécanismes de défense pour minimiser les vulnérabilités tout en maximisant l'utilité des données
- Quantifier l'exposition de chaque utilisateur avec un score de vulnérabilité
- Techniques basées sur la trajectoire (uniqueness) : mesurent la combinaison temporelle unique des lieux visités
- Très simple mais computationnellement lourde (croissance exponentielle)
- Inadaptée aux datasets à grande échelle
- Techniques basées sur les métriques : utilisent des métriques de mobilité (diversité, régularité, prévisibilité) avec apprentissage supervisé
- Dépendantes d'un modèle d'attaque spécifique
- Ne peuvent pas capturer les expositions liées à d'autres types d'attaques
- MoBES (Mobility Behavior Exposure Score)
- Technique basée sur K-nearest neighbors (KNN) qui mesure la distance moyenne aux k voisins les plus proches dans l'espace comportemental
- Fonctionne avec deux paramètres : k (nombre de voisins) et τ (seuil d'exposition)
- Un utilisateur est considéré exposé si son score MOBS est supérieur à τ
- Avantages : computationnellement moins coûteuse, interprétable, non dépendante d'un modèle d'adversaire
- Limite : basée sur une moyenne, ne capture pas l'exposition complète dans toutes les dimensions
- HEXPOSE (hyperbox-based exposure)
- Technique basée sur une région de similarité (hyperbox) définie par un seul paramètre V
- Compte le nombre de voisins à l'intérieur de la boîte de similarité dans toutes les dimensions
- Un utilisateur est exposé si le nombre de voisins = 0
- Plus interprétable que MOBS car le score représente directement le nombre de voisins
- Comble les lacunes laissées par MOBS en capturant l'exposition dans toutes les dimensions
- Espace comportemental de mobilité
- Explore le "comment" plutôt que le "quand" et le "où"
- Représentation multidimensionnelle formée par des métriques de mobilité
- Peut utiliser des métriques opaques (embeddings) ou transparentes (métriques interprétables)
- Hypothèse : plus un utilisateur est isolé dans cet espace, plus il est vulnérable
13 métriques catégorisées en trois types :
- Métriques spatiales :
- Rayon de giration (global et domicile-travail)
- Distance maximale parcourue
- Moyenne et écart-type des distances de déplacement
- Nombre de visites et de lieux uniques
- Métriques temporelles :
- Moyenne et écart-type de la vitesse et du temps de séjour
- Métriques structurelles :
- Stationnarité, régularité, diversité et entropie
Note : Ces métriques ne sont pas limitatives et peuvent être adaptées selon l'application
- CDR (Call Detail Records) : capturent la position de l'utilisateur à chaque appel
- XDR : capturent la position à chaque événement (SMS, appel reçu/émis)
Deux datasets testés :
- Shenzhen (CDR) : moins d'utilisateurs, période plus longue
- Shanghai (XDR) : plus d'utilisateurs, zone plus large, mais seulement 10 jours, plus d'enregistrements par utilisateur
- L'exposition des utilisateurs n'est pas distribuée uniformément : chaque utilisateur a un niveau d'exposition différent
- Permet une protection différenciée pour une meilleure utilité des données
- Évaluation avec k=1 et τ de 5%, 10%, 20%
- Des valeurs de τ plus petites capturent plus d'utilisateurs comme exposés (moins de variabilité acceptée)
- Des valeurs de τ plus grandes ne capturent que les utilisateurs avec une grande variation par rapport à leurs voisins
- Score plus interprétable : représente le nombre de voisins dans la région de similarité
- Avec V=5% et V=10% : la plupart des utilisateurs ont zéro voisin (exposés)
- Avec V=20% : moins de 20% des utilisateurs n'ont pas de voisin (la plupart sont protégés)
- Permet d'évaluer les dimensions les plus exposées grâce à la distance de protection
- Distance de protection : mesure moyenne nécessaire pour protéger les utilisateurs dans chaque dimension
- Avec V=5% et 10% : la plupart des utilisateurs restent exposés même après protection (distance généralement autour de 15%)
- Avec V=20% : meilleure visibilité des patterns conduisant à l'exposition
- Shanghai (XDR) : exposition principalement conduite par les métriques spatiales
- Captures fréquentes réduisent la sparsité des métriques temporelles
- Les métriques spatiales caractérisent mieux le comportement individuel
- Shenzhen (CDR) : métriques structurelles et temporelles plus importantes
- Captures uniquement lors d'appels téléphoniques
- Les métriques temporelles capturent les patterns de communication des utilisateurs
- HEXPOSE vs MoBES :
- HEXPOSE capture tous les utilisateurs capturés par MoBES (0% d'utilisateurs capturés uniquement par MoBES)
- HEXPOSE capture également d'autres utilisateurs non détectés par MoBES
- HEXPOSE comble les lacunes laissées par MoBES
- HEXPOSE vs Uniqueness :
- HEXPOSE capture la plupart des utilisateurs identifiés par uniqueness (avec V≤10%)
- HEXPOSE identifie également des utilisateurs non capturés par uniqueness, révélant des patterns d'exposition non détectés par les approches traditionnelles
- HEXPOSE ne capture pas totalement tous les utilisateurs détectés par uniqueness
- Démontre une complémentarité entre les deux approches
- Souligne la nécessité d'évaluer différentes perspectives de vulnérabilité dans les données de mobilité
- La recherche révèle une perspective peu étudiée de l'exposition dans les datasets de mobilité : l'exposition comportementale
- Capture une perspective différente de ce qui est habituellement étudié dans la littérature (patterns spatio-temporels bruts)
- Coût computationnel réduit par rapport aux techniques existantes
- Techniques très interprétables qui exploitent l'espace des métriques de mobilité
- Facilement adaptables à d'autres types de métriques de mobilité
- Élargir l'interprétabilité de l'exposition en évaluant différents profils de mobilité (routiers, explorateurs)
- Évaluer comment MoBES et HEXPOSE peuvent guider les mécanismes de défense (k-anonymat, differential privacy)
- Étudier le drift comportemental : comment l'exposition des utilisateurs évolue dans le temps
- Modéliser une attaque de réidentification basée uniquement sur le comportement des utilisateurs
-
Commentaire sur les modèles comportementaux dans les transports développés depuis Daniel McFadden et Moshe Ben-Akiva
-
Suggestion de consulter la CNIL (Commission Nationale de l'Informatique et des Libertés) concernant les règles d'anonymisation et de publication de datasets
-
Discussion sur la demande de données pour la calibration de modèles de transport
-
Mention des données CASD (données de sécurité) et des procédures d'accès réglementées