En los últimos meses se ha puesto el foco en la forma que tienen las compañías con asistentes de voz de mejorar su tecnología. Todas ellas recurren a la revisión humana de parte de los comandos de voz recibidos, incluyendo Siri. El País publica hoy un artículo en el que nos da algunos detalles adicionales acerca del proceso seguido por Apple para conseguir mejorar a Siri. Sin embargo, también puede dar la impresión errónea de que el asistente virtual de Apple nos escucha todo el rato o que es capaz de saber qué dice un usuario concreto en un momento dado.
Por eso, vamos a intentar resolver las dudas sobre el funcionamiento del proceso de mejora de Siri.
Oye Siri, ¿me estás escuchando?
Con motivo del incremento de las preguntas alrededor de los asistentes de otras compañías, hace unos meses repasamos el funcionamiento de "Oye Siri" en Applesfera. El documento de seguridad publicado por Apple y actualizado a mayo de 2019 también nos da más detalles acerca de este funcionamiento, que sigue el siguiente esquema:
- Cuando activamos Siri por primera vez, se crean varios identificadores aleatorios para utilizar en el reconocimiento de voz y en los servidores de Apple. De esta forma, todas las peticiones permanecen anónimas y no es posible asociarlas con un usuario determinado.
- Si lo desconectamos y activamos de nuevo, se creará otra serie de identificadores aleatorios nuevos.
- Las comunicaciones están cifradas para evitar que cualquiera pueda "verlas" si son interceptadas.
- El comando "Oye Siri" que activa los dispositivos de Apple compatibles se ejecuta en local contrastándolo con un patrón. Hasta que no hay una coincidencia suficiente no se manda a un servidor de Apple para su procesado.
- Apple minimiza las peticiones hechas al servidor dependiendo de su naturaleza. Como ejemplo puesto por Apple en su paper de seguridad, si el usuario pide que Siri le lea un mensaje, el servidor manda la orden al dispositivo para leer el mensaje recibido. Todo ello sin enviar el contenido ni el remitente al servidor.
Resumiendo el procedimiento de Apple con "Oye Siri", tenemos que las comunicaciones con el servidor están cifradas y son anónimas, haciendo imposible relacionar una frase con un usuario. La función "Oye Siri" se ejecuta en local sobre un loop de audio de unos segundos (según TechCrunch) que se sobreescribe constantemente sin mandarlo a un servidor. En caso de que sea necesario contactar con un servidor para ejecutar la petición, hay diferentes grados de involucración de éste para completarla, siempre minimizando la cantidad de datos transmitidos.
Privacidad "por diseño" integrada en los productos y servicios de Apple
El año pasado y con la entrada en vigor del Reglamento General de Protección de Datos en la UE (GDPR por sus siglas en inglés), Apple compartió con Applesfera cómo sus políticas de privacidad estaban completamente alineadas con este nuevo requisito legal. Para la compañía, se trata de un derecho fundamental de los usuarios el tener su privacidad protegida y bajo control.
En el caso de Siri, la compañía manifestó expresamente que sus medidas de privacidad fueron diseñadas desde el principio y no a posteriori. Para Apple, sus esfuerzos se basan en cuatro principios:
- Minimizar la recogida de datos, aplicando técnicas de privacidad diferencial.
- Procesado de datos dentro del dispositivo siempre que sea posible.
- Transparencia para el usuario, mostrando qué se está utilizando y para qué.
- Seguridad, necesaria para proteger la privacidad.
A tiempo para la entrada en vigor del GDPR en mayo de 2018, Apple activó o actualizó una serie de herramientas para que el usuario pudiera disponer de sus datos o borrarlos según su parecer. Sin embargo, no hay un repositorio de nuestras peticiones concretas a Siri en estas herramientas porque no se asocian con un usuario determinado, a diferencia de lo que ocurre con Amazon o Google. Dicho esto, sí que podemos suprimir el aprendizaje que ha hecho el asistente sobre nuestra voz desactivándolo en todos nuestros dispositivos.
"Grading" o el proceso de etiquetado de datos para aprendizaje automático
Todo este preámbulo sobre el funcionamiento y privacidad de Siri es necesario para poner en contexto el artículo de El País. En él, la publicación habla con varios ex-trabajadores de una empresa subcontratada por Apple en España para revisar las interacciones de los usuarios con Siri. Esta revisión se realiza sobre las peticiones hechas desde cualquier dispositivo de la manzana: Mac, Apple Watch, iPhone, iPad, Apple TV o HomePod.
El trabajo de estos revisores se centra en la calidad del audio registrado en la petición, en función de si se entiende bien al usuario, ruido de fondo, etc. Pero también se revisa el contenido de las peticiones, para mejorar el desempeño de Siri. Tal vez, lo más llamativo de todo lo desvelado en el artículo es que haya personas detrás trabajando para mejorar a Siri y no sea un proceso automático, aunque otras compañías como Google, Microsoft o Amazon también cuentan con equipos de este tipo para mejorar sus asistentes.
Es por ello que puede resultar contradictorio (y de hecho así lo hace ver El País) la defensa de la privacidad con este proceso de mejora del sistema del asistente virtual. Pero recordemos que Siri está a la espera de registrar las dos palabras mágicas ("Oye Siri") antes de enviar nada a los servidores de forma cifrada y anónima. No hay un registro completo de todo lo que escuchan los dispositivos de la manzana y, desde luego, no es posible activarlos de forma remota por un tercero y sin el consentimiento del usuario.
En el artículo se menciona cómo a veces este comando se activa sin que fuera la intención del usuario, dando lugar a situaciones embarazosas. Se trata de momentos en los que la coincidencia ha sido suficiente, como veíamos antes, y por tanto se "dispara" el asistente. Sin duda este es uno de los puntos de mejora del sistema de Siri, ya que en un par de conversaciones normales he experimentado su activación sin que fuera mi intención.
En respuesta a una petición hecha por Applesfera, la compañía nos ha ampliado la información acerca de este proceso de mejora realizado por personas. Se trata de un proceso llamado grading o evaluación, mediante el que se etiquetan los datos para que sean reconocidos por los sistemas de aprendizaje automático. Se utiliza para la mejora continua y de calidad de Siri. Como parte de este proceso de mejora, se clasifica la calidad de las respuestas de Siri y se marcan las acciones correctas.
En cuanto al trabajo específico de estos graders o revisores, reciben las peticiones de Siri cifradas, aleatorias y sin posibilidad de asociar a la identidad de un usuario concreto. Los graders tampoco reciben el identificador aleatorio de un usuario que mencionábamos al principio. Las peticiones cifradas y anónimas hechas a Siri siguen este camino, según el paper de seguridad de Apple:
- Las grabaciones de voz se guardan por un periodo de seis meses, para poder entender mejor la voz del usuario.
- Pasados los seis meses, se guarda otra copia sin su identificador para este proceso de mejora y desarrollo de Siri. Se guardan por un periodo máximo de dos años
- Un pequeño grupo de estas grabaciones y transcripciones se guarda durante más tiempo para asegurar la mejora continua y calidad de Siri.
Como usuario, resulta tranquilizado que la compañía sea transparente a la hora de manejar este tipo de datos e información privada. El uso que hace Apple parece razonable según lo manifestado y publicado cuando se pone en contexto. Eso sí, me gustaría que este tipo de revisiones fueran realizadas por personal de la propia Apple y no una compañía subcontratada.
Ver 13 comentarios