Por las tuberías: las tuberías de PVC comunes pueden piratear los sistemas de identificación por voz

Shimaa Ahmed, estudiante de doctorado que trabaja en el laboratorio del profesor Kassem Fawaz, determinó un método para anular los sistemas automáticos de identificación de altavoces utilizando el tipo de tubería de PVC que se encuentra en cualquier ferretería. Todd Brown

Los investigadores están en una carrera armamentista con los piratas informáticos para evitar el robo de datos. Sus herramientas estándar incluyen estrategias como sistemas de autenticación multifactor, tecnología de huellas dactilares y escaneos de retina. Un tipo de sistema de seguridad que está ganando popularidad es la identificación automática del hablante, que utiliza la voz de una persona como contraseña.

Estos sistemas, que ya se utilizan para banca telefónica y otras aplicaciones, son buenos para eliminar ataques que intentan falsificar la voz de un usuario mediante manipulación digital. Pero los ingenieros de seguridad digital de la Universidad de Wisconsin-Madison han descubierto que estos sistemas no son tan infalibles cuando se trata de un nuevo ataque analógico. Descubrieron que hablar a través de tubos de PVC personalizados (del tipo que se encuentra en la mayoría de las ferreterías) puede engañar a los algoritmos de aprendizaje automático que admiten sistemas de identificación automática de hablantes.

Kassam Fawaz es profesor asistente en el Departamento de Ingeniería Eléctrica e Informática. Foto de : Althea Dotzour

El equipo, dirigido por la estudiante de doctorado Shimaa Ahmed y Kassem Fawaz, profesor de ingeniería eléctrica e informática, presentó sus hallazgos el 9 de agosto en el Simposio de Seguridad Usenix en Anaheim, California.

Los riesgos que plantean los agujeros de seguridad analógicos podrían ser de gran alcance. Ahmed señala que muchas empresas comerciales ya venden la tecnología, y las instituciones financieras se encuentran entre sus primeros clientes. La tecnología también se utiliza para asistentes personales compatibles con IA, como Siri de Apple.

“Ahora se anuncia que los sistemas son tan seguros como una huella digital, pero eso no es muy preciso”, afirma Ahmed. “Todos ellos son susceptibles a ataques a la identificación del hablante. El ataque que desarrollamos es muy barato; simplemente consigue un tubo en la ferretería y cambia tu voz”.

El proyecto comenzó cuando el equipo comenzó a investigar los sistemas automáticos de identificación de hablantes en busca de debilidades. Cuando hablaron con claridad, las modelos se comportaron como se anunciaba. Pero cuando hablaron a través de sus manos o hablaron dentro de una caja en lugar de hablar con claridad, los modelos no se comportaron como se esperaba.

Ahmed investigó si era posible alterar la resonancia, o vibraciones de frecuencia específicas, de una voz para anular el sistema de seguridad. Debido a que su trabajo comenzó mientras estaba atrapada en casa debido al COVID-19, Ahmed comenzó hablando a través de tubos de toallas de papel para probar la idea. Más tarde, después de regresar al laboratorio, el grupo contrató a Yash Wani, entonces estudiante universitario y ahora estudiante de doctorado, para ayudar a modificar tuberías de PVC en UW Makerspace. Usando varios diámetros de tubería comprados en una ferretería local, Ahmed, Yani y su equipo alteraron la longitud y el diámetro de las tuberías hasta que pudieron producir la misma resonancia que la voz que intentaban imitar.

Finalmente, el equipo desarrolló un algoritmo que puede calcular las dimensiones de la tubería de PVC necesarias para transformar la resonancia de casi cualquier voz para imitar otra. De hecho, los investigadores engañaron con éxito a los sistemas de seguridad con el ataque del tubo de PVC el 60 por ciento de las veces en un conjunto de pruebas de 91 voces, mientras que los imitadores humanos inalterados pudieron engañar a los sistemas sólo el 6 por ciento de las veces.

El ataque de suplantación de identidad funciona por un par de razones. Primero, debido a que el sonido es analógico, evita los filtros de ataque digitales del sistema de autenticación de voz. En segundo lugar, el tubo no transforma una voz en una copia exacta de otra, sino que falsifica la resonancia de la voz objetivo, lo que es suficiente para provocar que el algoritmo de aprendizaje automático clasifique erróneamente la voz atacante.

Fawaz dice que parte de la motivación detrás del proyecto es simplemente alertar a la comunidad de seguridad de que la identificación por voz no es tan segura como mucha gente cree, aunque dice que muchos investigadores ya son conscientes de los defectos de la tecnología.

El proyecto también tiene un objetivo mayor.

"Estamos tratando de decir algo más fundamental", dice Fawaz. “En general, todas las aplicaciones de aprendizaje automático que analizan señales de voz suponen que la voz proviene de un altavoz, a través del aire hasta un micrófono. Pero no debes asumir que la voz es lo que esperas que sea. Hay todo tipo de transformaciones potenciales en el mundo físico ante esa señal de voz. Si eso rompe los supuestos subyacentes al sistema, entonces el sistema se comportará mal”.

Otros autores del estudio incluyen a Ali Shahin Shamsabadi del Instituto Alan Turing; Mohammed Yaghini y Nicholas Papernot de la Universidad de Toronto y el Vector Institute e Ilia Shumailov de la Universidad de Oxford y el Vector Institute.

Los autores agradecen el apoyo de DARPA (a través del programa GARD); la Fundación de Investigación de Antiguos Alumnos de Wisconsin; la NSF a través de los premios CNS-1838733 y CNS-2003129; CIFAR (a través de una Cátedra de IA de CIFAR de Canadá), NSERC (en el marco del Programa Discovery y la red de investigación estratégica COHESA), un obsequio de Intel y un obsequio de NVIDIA.

Etiquetas: Facultad de Ingeniería, ing de aprendizaje automático