La tecnología deepfake, que utiliza inteligencia artificial para crear o manipular contenido multimedia de manera que simula convincentemente la realidad, ha avanzado significativamente en los últimos años. Este artículo proporciona un análisis detallado de la percepción humana y la efectividad de los modelos de detección de deepfakes audiovisuales. Se realizó un experimento con 110 participantes utilizando una plataforma web basada en conceptos de gamificación para evaluar su capacidad de identificar deepfakes en una serie de videos. Los resultados revelan que los modelos de IA superan a los humanos en la detección de deepfakes y destacan la sobreestimación de la capacidad de detección por parte de los humanos. Este articulo trata de promover la necesidad del avance del análisis forense y el desarrollo de contramedidas adaptativas.

Los deepfakes son contenidos multimedia generados o manipulados por computadora que simulan o encubren la realidad. El surgimiento de la inteligencia artificial (IA) y las tecnologías de aprendizaje profundo (DL) ha permitido el desarrollo de herramientas de manipulación avanzadas que pueden alterar la identidad de una persona mediante el intercambio de voz o rasgos faciales​. Estas tecnologías tienen aplicaciones beneficiosas, pero su lado oscuro representa una amenaza significativa para la sociedad, al permitir la creación de contenido multimedia falso que puede engañar a las personas​​.

Tecnologías de Deepfake y su impacto.

Las técnicas de generación de deepfakes, como las redes generativas antagónicas (GAN), los autoencoders (AE) y los autoencoders variacionales (VAE), han tenido un impacto considerable en el contenido visual y auditivo​. Estas tecnologías permiten la creación de deepfakes altamente convincentes que pueden engañar tanto a humanos como a sistemas de detección automatizados. Aunque esta tecnología tiene un gran potencial para diversos fines creativos y de entretenimiento, también representa riesgos significativos cuando se usa de manera indebida. En manos equivocadas, los videos deepfake pueden engañar y manipular a los espectadores, lo que puede tener consecuencias graves para individuos y empresas.

Manipulación visual y acústica.

Un deepfake audiovisual implica la manipulación simultánea de las pistas de audio y video para producir un video altamente convincente y engañoso. Un ejemplo típico de esto es la alteración de movimientos labiales para sincronizarlos con un discurso modificado​​. Afortunadamente, así como la IA ha facilitado la creación de videos deepfake, también ofrece soluciones para detectar y combatir su uso malicioso. Se pueden desarrollar algoritmos de IA de vanguardia para identificar y marcar posibles videos deepfake en tiempo real. Estos algoritmos analizan diversos factores, como expresiones faciales, patrones de voz e inconsistencias en la pixelación, para distinguir entre contenido genuino y manipulado.

Percepción humana de Deepfakes.

La percepción humana de deepfakes, especialmente cuando se combinan elementos visuales y auditivos, es un área de investigación emergente. Este estudio investiga la capacidad de los participantes para detectar deepfakes audiovisuales y compara su desempeño con modelos de detección de IA de última generación.

Diseño del experimento

Se utilizó una plataforma web para presentar a los participantes una serie de 40 videos (20 reales y 20 falsos), seleccionados manualmente del dataset FakeAVCeleb. Los participantes evaluaron la autenticidad de los videos en dos rondas con diferentes órdenes aleatorios. La plataforma también proporcionó etiquetas de autenticidad para los videos después de cada clasificación​.

Preguntas de investigación

Las preguntas clave abordadas en este estudio incluyeron:

  • ¿Pueden los participantes diferenciar entre videos reales y deepfakes por encima del nivel de azar?
  • ¿Son los participantes mejores que los modelos de IA en la identificación de deepfakes audiovisuales?
  • ¿Influye la familiaridad y la advertencia previa sobre los deepfakes en la precisión de detección de los participantes?
  • ¿Influyen factores como la edad, el idioma nativo y la afinidad por la tecnología en la percepción de los deepfakes?​

Resultados y discusión

Rendimiento humano vs. modelos de IA

Los resultados muestran que los modelos de IA superan consistentemente a los humanos en la detección de deepfakes en las mismas condiciones experimentales. Esto se debe a que las técnicas de IA pueden identificar sutiles inconsistencias en los videos que son difíciles de detectar para los ojos humanos​​.

Impacto de la familiaridad y la confianza.

Se observó que la familiaridad con los sujetos de los videos y la advertencia previa sobre la presencia de deepfakes mejoran ligeramente la precisión de los participantes, pero no de manera significativa. Además, la confianza auto-reportada de los participantes no siempre se correlaciona con su precisión en la detección de deepfakes​)​.

Factores demográficos.

El análisis de factores demográficos como la edad, el idioma nativo y la afinidad por la tecnología reveló que estos factores tienen una influencia limitada en la capacidad de detección de deepfakes. No se encontraron diferencias significativas entre hablantes nativos y no nativos de inglés en su capacidad para identificar deepfakes​​.

Desafíos y limitaciones

Este estudio tiene varias limitaciones, incluyendo la cantidad limitada de videos utilizados y el tamaño relativamente pequeño de la muestra de participantes. Además, la complejidad de los deepfakes y la variabilidad en las técnicas de manipulación pueden afectar los resultados de manera que no se capturaron completamente en este estudio​.

Conclusión y futuras direcciones.

Este estudio proporciona una comprensión profunda de la percepción humana de deepfakes audiovisuales y destaca la necesidad de mejorar tanto las capacidades humanas como las algorítmicas para detectar este tipo de contenido. Futuros estudios deberían explorar métodos para aumentar la precisión de detección, incluyendo la integración de factores emocionales y el uso de referencias biométricas durante las evaluaciones​. Para proteger la reputación de su marca y garantizar la autenticidad de sus videos de ventas, las empresas pueden utilizar sistemas de autenticación impulsados por IA. Al incorporar identificadores únicos en los videos, los algoritmos de IA pueden verificar su integridad y detectar cualquier intento de manipulación. Este proceso de autenticación agrega una capa adicional de seguridad y genera confianza entre los clientes potenciales, asegurando que los videos de ventas que están viendo sean genuinos y fiables.

A medida que la amenaza de los videos deepfake continúa evolucionando, es crucial que la industria de TI y servicios colabore con proveedores de tecnología y organismos reguladores. Juntos, pueden establecer estándares y directrices para el uso responsable de videos de ventas impulsados por IA. Al compartir las mejores prácticas y conocimientos, las empresas pueden mantenerse colectivamente a la vanguardia de las amenazas potenciales y proteger a sus clientes de prácticas engañosas.

Fuente: https://www.researchgate.net/publication/380374841_Unmasking_Illusions_Understanding_Human_Perception_of_Audiovisual_Deepfakes