Le News di CONSULENZE DIGITALI - Consulenti Digitali

Vai ai contenuti

Cos’è la privacy differenziale di Apple e perché potrebbe cambiarci la vita

Consulenti Digitali
Pubblicato da in News Privacy Europea · 18 Luglio 2018
Alla WWDC Apple ha raccontato la sua filosofia sui dati personali, che vanno raccolti per far funzionare al meglio Siri e gli altri servizi. Facendo in modo che rimangano sempre anonimi, sia per l’azienda che per le forze dell’ordine
Fonte lastampa.it
Apple sa tutto di te, come Google, Facebook, Microsoft, Amazon e molte altre aziende. C’è però una differenza tra quelle che basano il loro business sulla pubblicità e quelle che guadagno dalla vendita di hardware o servizi: le seconde non hanno bisogno di sapere chi sei, perché non devono vendere le tue informazioni ad altri. A questo si riferiva Craig Federighi, Senior Vice President of Software Engineering di Apple, quando nel corso della WWDC ha parlato di “Differential Privacy”. Perché Siri funzioni al meglio, perché sia in grado di comprendere o addirittura anticipare esigenze e abitudini di ognuno, deve insomma sapere tutto di te ma non le serve conoscere la tua identità.
Normalmente si procede anonimizzando i dati, ossia eliminando ogni riferimento personale dalle informazioni raccolte. Questo però implica che i dati siano raccolti, all’inizio, in forma non anonima, e che a tale stato sia in qualche modo possibile tornare. Incrociando i riferimenti di vari set di dati, ad esempio, o forzando gli archivi dove sono conservate le corrispondenze tra le informazioni e le persone da cui provengono. Non c’è modo, evidentemente, di garantire per sempre la privacy e la segretezza delle informazioni, o evitare a priori il rischio che un’autorità governativa o un malintenzionato possano accedervi in futuro.
L’approccio di Apple, a quanto ha accennato Federighi, è differente. Le informazioni utili a Siri e alle varie forme di intelligenza artificiale che Cupertino sta mettendo a punto vengono infatti già raccolte in forma anonima, quindi non è possibile risalire dal set di dati alla persona che li ha generati. Un processo complesso che prevede, a grandi linee, tre operazioni fondamentali: la prima si chiama hashing, e consiste nel convertire i dati in una stringa di caratteri apparentemente casuali, grazie a una chiave crittografica unica. La cifratura riguarda ogni comunicazione tra l’apparecchio e Apple, ma anche i dati sensibili conservati sullo stesso apparecchio. Il secondo passo è il subsampling, che consiste nel considerare solo una piccola porzione dei dati ottenuti: non è difficile, perché statisticamente questi rimangono rilevanti comunque, considerata l’enorme mole di informazioni che ad esempio un iPhone può raccogliere. Il terzo processo è la cosiddetta noise injection, ossia inserire nelle informazioni una certa quantità di rumore, per nascondere l’identità di chi le ha generate.
Di questa tecnica parla ad esempio Aaron Roth, professore di informatica alla University of Pennsylvania, citato da Federigi nella sua predsentazione. Con la ricercatrice di Microsoft Cynthia Dwork, Roth è autore di Algorithmic Foundations of Differential Privacy, un testo estremamente tecnico, ma non privo di qualche esempio pratico. Prendiamo un test in cui sia chiesto a un gruppo di persone se hanno violato la legge: in questo caso la risposta è un dato sensibile e va protetto. La procedura non è complessa: immaginiamo che ai soggetti dell’indagine sia chiesto di lanciare una moneta prima di rispondere, e che debbano rispettare alcune regole. Se esce croce, rispondono direttamente alla domanda, se invece è testa, lanciano la moneta di nuovo e la risposta sarà “sì” se viene fuori testa, “no”, se il risultato è croce. Così, posto un campione di 100 persone, statisticamente solo 50 risponderanno davvero al test, mentre le altre genereranno dati casuali, in grado di nascondere l’identità di quelli che rispondono. Nel test in esempio si potrà egualmente stabilire quale percentuale del gruppo ha violato la legge, ma sarà impossibile stabilire chi è stato.
Tra le aziende interessate alla privacy differenziale c’è Microsoft, ma anche Google sta valutando questo approccio nel suo Rappor project, per identificare i siti potenzialmente pericolosi. Apple va più in là, e dopo la lunga guerra contro l’Fbi proprio sull’accesso ai dati personali dei killer di san Bernardino, decide di adottare in larga scala questa tecnologia, che arriverà in iOS 10 per «scoprire scenari di uso comune di un grande numero di utenti senza compromettere la privacy individuale», come spiega a Gizmodo. «Col tempo, emergeranno schemi generali che possono aiutare a migliorare l’esperienza d’uso. In iOS 10 questa tecnologia sarà impiegata per QuickType, i suggerimenti delle emoji, dei deep link in Spotlight e per i consigli in Note».
Non tutti sono però convinti che l’approccio di Apple sia corretto: «È un’idea molto buona ma non sono mai riuscito a vederla applicata realmente», osserva Matthew Green, docente associato di Crittografia alla Johns Hopkins University. «Alla fine diventa un compromesso tra l’accuratezza dei dati che si raccolgono e la privacy». E in effetti Aaron Roth, che Apple ha citato e presentato come una specie di consulente, nel testo spiega che la privacy differenziale è la promessa fatta a un soggetto che non sperimenterà alcuna conseguenza, sia positiva che negativa, qualora i suoi dati dovessero essere usati in studi o analisi e incrociati con altri set di informazioni e analisi. Il riferimento è a un esperimento di Netflix, che aveva presentato anni fa dei dati sugli utenti in forma anonima. Ma due ricercatori dell’Università di Austin incrociarono i dati con quelli di IMDB e riuscirono a risalire all’identità di diversi soggetti interpellati. Si promette insomma, che i dati degli utenti saranno protetti, ma non che la ricerca produca dati certi (qui un altro esempio di come si possano identificare alcuni soggetti incrociando analisi anonime).
Però il merito di Apple è nell’approccio, prima ancora che nei risultati, per il fatto di considerare gli utenti come persone e non soltanto come un insieme di dati da sfruttare: «Pensiamo che abbiate diritto ad avere grandi prodotti e una grande privacy», per usare le parole di Federighi.



Torna ai contenuti