Los datos anonimizados son claves para algunas de las tecnologías más punteras del momento, desde el diagnóstico de enfermedades usando Inteligencia Artificial a las recomendaciones personalizadas de música en Spotify. Por desgracia, según un reciente artículo científico publicado en la prestigiosa revista Nature, anonimizar datos completamente es prácticamente imposible.

Los datos anonimizados son aquellos en los que se ha eliminado toda información que pueda llevar a la identificación de los sujetos a los que se refieren los datos. Una vez anonimizados, los datos todavía conservan información útil para que los investigadores puedan usarlos en sus estudios sin miedo a violar las leyes de privacidad. Todo el mundo gana, los datos sirven para avanzar en investigaciones y la privacidad de los individuos no se pone en riesgo. Por ejemplo, un hospital puede eliminar los nombres, direcciones y fechas de nacimientos de las historias clínicas de sus pacientes de modo que los médicos puedan usar los datos para identificar correlaciones entre dolencias, tratamientos y síntomas.

Aunque en la teoría la anonimización funciona muy bien, en la práctica existen una serie de técnicas que permiten revertir el proceso y averiguar quién está detrás de los datos. En 2008, una base de datos anonimizada de Netflix con puntuaciones de películas fue desanonimizada comparando las puntuaciones de las películas en distintas plataformas. A partir de una base de datos de rutas de taxi en Nueva York, fue posible identificar el domicilio de los taxistas de la ciudad. Los ejemplos de bases de datos anonimizadas cuyos sujetos han sido revelados es larga.

El estudio que fundamenta el artículo de Nature fue llevado a cabo por la Universidad de Lovaina en Bélgica en colaboración con el Imperial College de Londres. Según sus investigaciones, una base de datos con 15 campos de información demográfica hace que sea prácticamente segura la posibilidad de identificación de los individuos que hay detrás, mucho más cuanto más pequeña sea la población a la que pertenecen los individuos.

Los investigadores advierten de que en la actualidad es posible adquirir en el mercado bases de datos anonimizadas con muchísimos más de 15 campos de información demográfica por persona. En concreto los investigadores llamaron la atención sobre una base de datos en venta con 248 atributos demográficos relativos a 120 millones de estadounidenses.

Los investigadores concluyen que la anonimización no sería suficiente para cumplir con el Reglamento General de Protección de Datos ya que el riesgo de reidentificación de datos personales de sujetos es muy alto. Los investigadores citan otras técnicas más complejas que adoptan medidas activas para impedir la desanonimización de bases de datos. Un ejemplo sería la Privacidad Diferencial, usada por compañías como Apple y Uber o la codificación homomórfica.