- Titre : Privacy-aware passive sniffing: from wireless measurements to bounded trajectories
- Présentateur : Nadjib Achir (INRIA - TRIBE) et Aline Carneiro Viana (INRIA - TRIBE)
- Résumé : In today's digital era, marked by the widespread use of smartphones and the ever-present wireless networks, the creation of digital traces has become an inevitable aspect of daily life, revealing patterns in user behavior and movements. In this talk, we present a passive WiFi sniffing platform developed under the ANR Mitik project and related challenges to collect and analyze datasets based on probe requests. This platform integrates advanced tools to overcome several challenges, including protecting user privacy, managing MAC address associations, and reconstructing mobile trajectories. By effectively tackling these issues, the platform seeks to aid in deducting individual travel habits and the identification of potential connections among different devices.
- Sujet de recherche associé : Travaux antérieurs au projet
(*) Documents accesibles via l'authentification du portail MOBIDEC
Afficher le compte rendu
- Nadjib Achir, enseignant-chercheur à l'Université Sorbonne Paris-Nord et membre de l'équipe TRIBE INRIA, présente les travaux du projet ANR MITIK
- Objectif principal : générer des traces de trajectoires de personnes dans des zones restreintes en utilisant la technologie WiFi plutôt que les réseaux cellulaires
- Le WiFi offre une meilleure finesse de positionnement spatial malgré une portée plus petite que les réseaux cellulaires
- Projet purement académique visant à fournir des datasets de mobilité réaliste et la méthodologie complète à la communauté scientifique
- Architecture de bout en bout : de la collecte des données à la génération de trajectoires
- Trois couches principales : équipements de collecte (sniffers), serveur central de traitement, et génération de trajectoires
- Déploiement de sniffers (capteurs WiFi) dans des zones d'intérêt pour collecter les informations
- Les smartphones disposent de technologies WiFi et Bluetooth en plus du cellulaire
- Exploration initiale des deux technologies, puis choix du WiFi
- Raisons du choix : le WiFi est plus "bavard" (informations plus fréquentes) et offre une meilleure couverture que le Bluetooth
- Avantage : pas de dépendance aux opérateurs téléphoniques, contrairement aux réseaux cellulaires
- Focus sur les "probe requests" - messages envoyés par les téléphones pour chercher des points d'accès WiFi connus
- Les téléphones envoient ces messages pour se connecter automatiquement aux réseaux connus
- Ces probe requests fournissent une indication de la présence d'un terminal
- Les beacons (messages des points d'accès) sont également collectés pour la synchronisation
- Configuration : Raspberry Pi avec carte WiFi supplémentaire, GPS, antennes extérieures
- Déploiement de 5 Raspberry par sniffer pour assurer la redondance
- La redondance permet de réduire la probabilité de manquer des devices
- Portée effective : 40-60 mètres maximum en conditions réelles
- Les sniffers fonctionnent de manière indépendante, sans connexion réseau entre eux
- Comparaison de plusieurs outils de capture : TCPDdump, Scapy, Tshark
- TCPdump : rapide mais difficile à personnaliser pour l'anonymisation
- Scapy : flexible mais trop lent, peut rater des messages
- Développement d'un outil propriétaire : MITIK-SENS
- Performances équivalentes à TCPdump en vitesse avec anonymisation intégrée
- Utilisation CPU très faible (~5% de mémoire)
- Respect des contraintes RGPD pour la collecte de données personnelles
- Anonymisation à la volée de tous les champs identifiants : adresses MAC, SSID, etc.
- Fonction de hachage : SHA-1 ou MD5 truncate appliquée immédiatement lors de la capture
- Pseudo-anonymisation pour réduire la probabilité de rétro-ingénierie
- Tous les champs appartenant au device sont anonymisés avant stockage
¶ Problème de randomisation des adresses MAC
- Les OS récents randomisent automatiquement les adresses MAC pour protéger la vie privée
- Les devices génèrent des adresses MAC virtuelles qui changent périodiquement
- Cette randomisation varie selon les constructeurs et n'est pas toujours robuste
- Problème : un même device apparaît avec plusieurs adresses MAC différentes
- Nécessité de dé-randomiser pour reconstruire les trajectoires complètes
¶ Solution de dé-randomisation : Bleach
- Algorithme en quatre étapes pour associer les adresses MAC d'un même device
- Identification de périodes de conflit où certaines adresses disparaissent et d'autres apparaissent
- Calcul de signatures temporelles basées sur les intervalles entre trames
- Calcul de signatures de contenu basées sur 8 champs les plus fréquents
- Régression logistique pour calculer la probabilité d'association
- Tests sur dataset Sapienza (Italie) : université, centres commerciaux, événements politiques, Vatican
- Taux de succès variables : >80% pour université et gare, 60-74% pour autres environnements
- Complexité liée au nombre de devices en conflit pendant une période donnée
- Validation sur dataset de Singapour sans ground truth
- Hypothèse : la distribution du temps de séjour doit être similaire entre devices randomisés et non-randomisés
- Résultats montrent une reproduction du phénomène de temps de séjour
- Utilisation du GPS pour synchronisation en extérieur
- En intérieur, outil Paypal développé par Sorbonne Université pour synchronisation basée sur les beacons communs
- Nettoyage des trames corrompues et artefacts
- Format PCAP (standard réseau) pour compatibilité avec outils existants
- Séparation et concaténation des traces par device
- Objectif : reconstruire les trajectoires et les contacts entre devices
- Utilisation des rapports signal/bruit (RSSI) capturés par multiples sniffers
- Discrétisation temporelle pour vision stricte de la mobilité
- Calcul de deux types d'erreurs : erreur de distance (Span Error) et erreur d'environnement (Fluctuation Error)
- Échantillonnage des distributions d'erreur pour chaque sniffer
- Multilatération à partir de plusieurs échantillons pour générer un nuage de points
- Résultat : trajectoire bornée avec zones de précision variable
- Zones proches des sniffers : nuage de points petit (précision élevée)
- Zones éloignées ou perturbées : nuage de points large (précision moindre)
- Tests par simulation sur plusieurs scénarios
- Zones avec différents niveaux de perturbation testées
- Impact du nombre de sniffers sur la précision : moins de sniffers = erreurs plus importantes
- Traces réelles récemment obtenues, traitement en cours
- Détection d'autres devices IoT : Les IoT utilisent généralement d'autres technologies (Matter, Zigbee, LoRaWAN, 5G) plutôt que WiFi
- Devices détectés : Principalement des terminaux mobiles en extérieur, quelques laptops, mais les téléphones sont les plus actifs
- Portée géographique : 40-60 mètres maximum en conditions réelles
- Fonctionnement en réseau : Les sniffers sont indépendants, la coordination se fait au niveau du serveur central
- Devices manqués : La redondance (5 Raspberry par sniffer) minimise le risque de manquer complètement un device
- WiFi désactivé : Même avec WiFi éteint, la plupart des appareils envoient des probe requests pour améliorer l'expérience utilisateur
- Différenciation piétons/véhicules : Question posée mais non traitée dans le projet actuel, problème intéressant pour travaux futurs
-
Choix du placement et nombre de sniffers à déployer
-
Sélection des informations pertinentes à collecter
-
Garantie de la vie privée et conformité RGPD
-
Filtrage, analyse et synchronisation des traces
-
Association des devices malgré la randomisation