Les historiques de navigation sont suffisamment uniques pour identifier les utilisateurs de manière fiable assure Mozilla

Une étude récente, menée par trois employés de Mozilla, s’est penchée sur la confidentialité proposée par les navigateurs aux internautes. Leurs conclusions montrent que la plupart des utilisateurs ont des habitudes de navigation uniques sur le web qui permettent aux annonceurs en ligne de créer des profils précis.

Ces profils peuvent ensuite être utilisés pour suivre et réidentifier les utilisateurs à travers différents ensembles de données, même si ceux ci ne contiennent que de petits échantillons de l’historique de navigation d’un utilisateur.

L’étude vient dissiper un mythe selon lequel l’historique de navigation, même anonymisé, n’est pas utile aux annonceurs en ligne. En réalité, l’étude montre que même une petite liste de 50 à 150 des domaines préférés et les plus consultés de l’utilisateur peut permettre aux annonceurs de créer un profil de suivi unique.

publicité

Confirmation d’une étude similaire pour 2012

Le document de recherche sur Mozilla est intitulé “Replication: Why We Still Can’t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories[PDF]. Ce document a été présenté au début du mois à la conférence de sécurité USENIX, et fait suite à une autre étude universitaire publiée en 2012 [PDF].

Cette première étude de 2012 a été l’une des premières recherches de grande ampleur sur la vie privée des utilisateurs à l’époque : les données de l’historique des navigateurs de plus de 380 000 internautes ont alors été analysées. Entre janvier 2009 et mai 2011, les chercheurs ont utilisé un site de test en ligne et un code CSS pour déterminer quels sites web, parmi une liste prédéfinie de 6 000 domaines, les utilisateurs avaient visités.

L’étude de 2012 montrait que 97 % des utilisateurs qui ont accédé à ce site test avaient une liste unique de sites dans leur historique de navigation, ce qui faisait de l’historique de navigation un solide vecteur de reconnaissance de l’utilisateur. En outre, lorsqu’il a été demandé aux utilisateurs d’accéder à nouveau au site test, les chercheurs ont déclaré qu’ils étaient en mesure de réidentifier les utilisateurs sur la base de leur profil d’historique de navigation depuis la première visite.

Les taux de précision étaient de 38 % lorsque les chercheurs ont examiné les ensembles de données sur l’historique de navigation de 50 des domaines les plus populaires de l’utilisateur, et de 70 % lorsqu’ils ont analysé les ensembles de données de 500 domaines.

Les résultats de l’étude de Mozilla en 2020

L’année dernière, les chercheurs de Mozilla ont voulu réévaluer si l’historique de navigation était toujours un vecteur d’empreintes digitales valable et si l’étude de 2012 était toujours valable. La nouvelle expérience a été effectuée entre le 16 juillet et le 13 août 2019. Les chercheurs de Mozilla ont déclaré que plus de 52 000 utilisateurs ont accepté de participer et ont accepté de fournir des données de navigation anonymes.

Cependant, cette fois-ci, comme les données ont été recueillies à partir du navigateur Firefox, et non par le biais d’une page web effectuant un test CSS, les données collectées sont beaucoup plus précises et fiables. En outre, les données recueillies par les chercheurs de Mozilla sont du même type que celles que les sociétés d’analyse en ligne d’aujourd’hui recueillent également sur les utilisateurs, que ce soit par le biais de partenariats sur les données, d’applications mobiles, de publicités en ligne ou d’autres mécanismes.

Comme en 2012, la collecte de données s’est déroulée en deux étapes, en deux semaines, les utilisateurs partageant l’historique de leur navigation pendant la première semaine, puis de nouveau pendant la seconde, afin que les chercheurs de Mozilla puissent voir s’ils pouvaient ré-identifier les utilisateurs.

Au total, l’équipe Mozilla a déclaré avoir recueilli des données sur environ 35 millions de visites de sites web dans 660 000 domaines uniques. Et cet accès à des données de meilleure qualité s’est immédiatement reflété dans les conclusions de l’étude. Mozilla a déclaré que 99% des profils de navigation qu’ils ont collectés pour l’étude étaient uniques à chaque utilisateur. Ce caractère unique a permis aux chercheurs de Mozilla de réidentifier facilement les utilisateurs au cours de la deuxième semaine de l’étude.

La précision est également supérieure à celle de l’étude de 2012. Mozilla affirme avoir un taux de réidentifiabilité de près de 50 % pour les ensembles de données contenant 50 domaines de l’historique de navigation d’un utilisateur. Ce taux de réidentifiabilité passe à plus de 80 % lorsque les chercheurs de Mozilla étendent l’ensemble de données sur l’historique de navigation à 150 domaines.

Cela suggère que les sociétés d’analyse et les annonceurs n’ont pas besoin de listes conséquentes de données sur l’historique de navigation pour suivre les utilisateurs, et que les spécificités de navigation de chaque utilisateur et leurs sites préférés finissent par les trahir, même lorsque les données sont anonymes, et les URL tronquées.

Une vidéo de la présentation de l’équipe Mozilla est disponible ici.

Leave a Reply

Your email address will not be published. Required fields are marked *