Mi nombre es Arti Ramesh. Soy profesora asistente en la State University of New York, Binghamton. Soy de Estados Unidos y trabajo en el ámbito de machine learning y la creación de modelos relacionales que se preocupan de predecir objetos y usuarios que están conectados

¿Cómo definirías la transparencia?
Nuestro mundo se ha vuelto más conectado con dispositivos IOT, usuarios, redes sociales, etc., por modelos de distintos tipos de datos. Hay una dimensión de privacidad, transparencia, equidad y también interpretabilidad que me gustaría agregar a mis modelos. Este es el resumen general de mi investigación.

Para mí la transparencia es poder hacer modelos de aprendizaje automático que ofrezcan una buena explicación del porqué hacen ciertas predicciones. Hablo más desde la perspectiva del machine learning porqué soy investigadora de este campo. El aprendizaje automático se ha vuelto muy popular. Mucha gente usa estos modelos pero la mayoría de estos modelos carecen de capacidad de explicación e interpretación y se usan normalmente como cajas negras, tal como mucha gente ha comentado en la conferencia. Queremos poder usar estos modelos para generar predicciones que sean interpretables y que podamos explicar. Y creo que ayudaría hacer estos modelos y datos más transparentes para el usuario.

¿Se preocupan los usuarios por la transparencia? ¿Y las empresas?
Creo que a los usuarios definitivamente les importa en el modo en el que la entienden, porqué muchos usuarios no entienden realmente las implicaciones de la privacidad. Por lo tanto, a veces la imparcialidad y la transparencia, debería importarles pero que tienen una comprensión limitada de lo que significa ser injusto y falto de transparencia. Pero creo que, si se lo explicas, si conocen las implicaciones lo entenderán mejor y se preocuparán más por ello.
Por lo que respecta a las empresas, creo que hasta ahora hay mucho énfasis en crear modelos o enfoques de machine learning que tienen mejor poder de predicción, lo que tiene muchas ventajas en la predicción a costa de la transparencia. Hay trabajos recientes hacia modelos que son transparentes por naturaleza y que tienen enfoques en los que los usuarios son parte de la ecuación y entienden las implicaciones y pueden participar para mejorarlo.

¿Cuáles son las últimas tendencias relativas a la transparencia de datos?
En los últimos años hemos visto crecer el machine learning en muchas dimensiones, tales como modelos enormes, capaces de aprovechar los avances computacionales como los modelos deep learning que requieren mucha memoria, pero que gracias a los recientes avances en hardware y memoria es posible crear modelos muy grandes y complejos. Esto es algo muy importante que hemos visto en los últimos años y otra de las cosas que hemos podido ver es el uso del machine learning en varias disciplinas como en la salud, IoT o en modelos de Smart cities. Estas son las aplicaciones más nuevas del machine learning, pero creo que lo que definitivamente falta es crear modelos que sean justos, interpretables, y creo que la interpretabilidad y la equidad van de la mano. Entonces, si puedes crear modelos interpretables que realmente tienen combinaciones de características o datos significativas y por lo tanto ser más interpretables, nos ayudaría a verificar si los modelos son justos, si los modelos son transparentes, y hacer cambios en consecuencia, para que sean justos y transparentes para el usuario y para que éste sea consciente de la privacidad. Todas estas cosas son posibles solo cuando sabemos lo que el modelo está haciendo, y la interpretabilidad es una ecuación realmente importante en esto. Y creo que el campo está avanzando definitivamente hacia este punto y veremos mucho más en los próximos años.

Aplicamos a una beca del DTL con un proyecto basado en entender los asistentes personales, como Google Home o Alexa. El trabajo pretende identificar cuánta información personal pueden revelar sus comandos.

 

¿En qué proyectos sobre privacidad y transparencia de datos trabajas actualmente?
Hemos aplicado a una beca DTL con un proyecto, por el que estoy aquí, que trata de identificar filtraciones de privacidad en dispositivos con asistentes personales. El proyecto se basa en entender los datos de los asistentes personales como Google Home, Alexa, que son utilizados realmente para tareas sencillas en el día a día como navegar, saber si un restaurante está abierto, consultar el tiempo, controles de Smart homes, consultar opciones para salir un viernes a cenar, opciones cercanas o cosas por el estilo. Todas estas consultas son mucho más reveladoras de información personal de una persona, como la edad, el sexo, la ubicación y esto es algo importante en lo que centrarse. Pero todos estos datos pueden ser revelados más fácilmente por estos comandos que con búsquedas en Google o motores de búsqueda porqué esta información está mucho más segmentada cuando se quiere recopilar información sobre un sujeto en concreto ya que estos comandos de los asistentes personales están mucho más orientados al estilo de vida que las búsquedas simples. El proyecto implica poder identificar esta información personal usando estos comandos, cuánta información personal revelan estos comandos realmente y no lo sabremos hasta que no apliquemos machine learning para ver qué tipo de comandos y cómo tienen lugar al mismo tiempo. Por ejemplo, puedo comprar un cochecito lo que podría indicar que tengo un hijo, o puedo ser una mujer y comprar algo para un hombre lo que podría indicar que estoy casada, o preferencias musicales, preferencias dietéticas, como ser vegetariano o que te gusten ciertas comidas. Toda esta información matizada sobre un usuario va más allá de su ubicación, edad o género. Y eso podría conducir a una invasión de la privacidad mayor de la que el usuario desearía, y hoy vimos en una charla sobre cómo ser vegetariano u otras preferencias alimenticias, ciertas anotaciones crediticias, etc., pueden ser muy, muy dañinas y eso es lo que intento hacer, saber si estos comandos vienen juntos y revelan información.

¿Qué opinas del Data Transparency Lab?
Creo que es un esfuerzo muy, muy bueno y muy oportuno y necesario porqué la transparencia de datos es muy importante hasta el punto de que hay muchos datos que se recopilan y la mayoría se recopilan de muchas maneras sin que los usuarios lo sepan y además muchos de los datos se almacenan en lugares que pueden ser hackeados o los datos pueden ser usados por apps o incluso por entes maliciosos que si tienen acceso a los datos pueden usarlos para fines equivocados y esto debe detenerse. Creo que hay muchas dimensiones acerca de la transparencia de datos y el Data Transparency Lab las engloba de un modo correcto. Mientras el hecho de que los datos recopilados es muy, muy importante, también es muy importante el aspecto de los modelos, de los que hablaba anteriormente, y cómo usan los datos para darnos una idea real de cómo evitar que esto suceda.

DTL 2018 text logo

Ya puedes registrarte para participar en el Hackathon organizado por LUCA. Conoce los proyectos premiados con una beca Call for Tools. Suscríbete a nuestra Newsletter para estar al día de nuestras noticias y actividades.

This website uses cookies to improve user experience. By using our website you consent to all cookies in accordance with our Cookie Policy.

OK More information