Investigadores de diferentes universidades británicas han entrenado un nuevo modelo de ataque capaz de robar datos mediante el uso de un micrófono que registra las pulsaciones de teclas con una efectividad del 95%, poniendo en grave riesgo la información del objetivo al filtrar contraseñas, conversaciones, mensajes u otros datos.

A diferencia de otros tipos de ataque de este tipo (Canal Lateral), donde se requieren cumplir con ciertos parámetros para ejecutarse, los ataques acústicos se han vuelto mucho más simples debido a la gran cantidad de dispositivos con micrófonos existentes en la actualidad, los cuales facilitan realizar capturas de audio de alta calidad, convirtiéndolos en ataques mucho más peligrosos de lo previsto.

Metodología de Ataque

El primer paso del ataque consiste en registrar las pulsaciones de teclas del objetivo. Esto se realiza con un micrófono cercano ya sea del dispositivo portátil o del teléfono del objetivo, previa infección con un malware que permita el acceso a su micrófono. Este paso es muy importante, ya que es necesario para entrenar el algoritmo de predicción. Consecutivo, dichas pulsaciones se pueden grabar mediante una llamada Zoom donde un participe de la misma, ejecuta correlaciones entre los mensajes escritos por el objetivo y su grabación de sonido. Con esta práctica, los investigadores recopilaron datos de entrenamiento presionando 36 teclas en una MacBook Pro moderna 25 veces cada una y grabando el sonido producido por cada pulsación.

Muestreo del audio de las pulsaciones de teclas (arxiv.org)

Luego, produjeron formas de onda y espectrogramas a partir de las grabaciones realizadas, donde se visualizaron diferencias identificables para cada tecla y, se aumentaron las señales para identificar las pulsaciones mediante un sofisticado procesamiento de datos.

Espectrogramas producidos (arxiv.org)

Las imágenes del espectrograma se usaron para entrenar ‘CoAtNet’, que es un clasificador de imágenes, mientras que el proceso requirió cierta experimentación con la época, la tasa de aprendizaje y los parámetros de división de datos hasta que se lograron los mejores resultados de precisión de predicción.

Parámetros seleccionados para entrenar CoAtNet (arxiv.org)

Durante estas pruebas, los investigadores utilizaron el mismo dispositivo portátil, cuyo teclado se ha utilizado en todas las computadoras portátiles de Apple durante los últimos dos años, y un iPhone 13 mini colocado a 17 cm del objetivo y Zoom.

La configuración de la prueba (arxiv.org)

El clasificador CoANet logró una precisión del 95 % de las grabaciones de los teléfonos inteligentes y del 93 % de las capturadas a través de ZoomSkype produjo una precisión del 91,7% más baja pero aún utilizable.

Matriz de confusión para pulsaciones de teclas grabadas por teléfono (arxiv.org)

Posibles mitigaciones

En base al desarrollo expuesto sobre la ejecución de este ataque, es importante saber cómo mitigarlo, por tal motivo, the paper sugiere que pueden alterar los estilos de escritura o usar contraseñas aleatorias, otras de las posibilidades es el uso de programas para reproducir sonidos de teclas, ruido blanco o filtros de audio de pulsaciones basados ​​en software.

Es importante recordar que, el modelo de ataque es muy efectivo incluso contra un teclado muy silencioso, por lo que es poco probable que ayude agregar amortiguadores de sonido en teclados mecánicos o cambiar a teclados basados ​​en membrana, por ende, como última medida, se recomienda emplear algún tipo de autenticación biométrica mientras se posible, sumado a la utilización de administradores de contraseñas con el fin de evitar ingresar información manualmente.

Fuente:

https://www.bleepingcomputer.com/news/security/new-acoustic-attack-steals-data-from-keystrokes-with-95-percent-accuracy/