Pentesting de Inteligencia Artificial

Autor: José Israel Nadal Vidal * – ESPAÑA

Con el auge de la inteligencia artificial también han surgido formas de atacar a estos sistemas que los equipos de Red Team estamos empezando a usar, ya que cada vez es más frecuente que nos encarguen trabajos de este tipo.
Los ataques más conocidos que podemos usar contra sistemas de IA son:

·        Envenenamiento de datos: El atacante puede envenenar los datos de entrenamiento que se están utilizando para entrenar el modelo de Machine Learning. Al contaminar esta fuente de datos, el atacante puede crear una «puerta trasera», ya que sabe que el modelo ha sido entrenado con datos defectuosos y sabe cómo aprovecharse de ello. Esto puede facilitar otros ataques como la evasión del modelo que se menciona más adelante.

·        Envenenamiento del modelo: Como el ataque anterior pero esta vez el atacante tiene como objetivo el modelo en lugar de los datos. Se compromete un modelo preentrenado y se le inyectan puertas traseras que el atacante puede aprovechar para saltarse su proceso de toma de decisiones. La mayoría de las empresas no construyen modelos desde cero, sino que utilizan modelos preentrenados que suelen estar disponibles, como ResNet de Microsoft o Clip OpenAI. Estos modelos se almacenan en un Zoo de Modelos que es una forma común en la que los frameworks de código abierto y las empresas organizan sus modelos de aprendizaje automático y aprendizaje profundo. Esto es como un ataque a la cadena de suministro de software en el que un atacante puede envenenar el pozo para muchos usuarios

·        Extracción de datos: El atacante puede consultar el modelo y entender qué datos de entrenamiento se utilizaron en su aprendizaje. Esto podría resultar en el compromiso de datos sensibles ya que el atacante puede inferir los datos utilizados en el entrenamiento del modelo y es especialmente peligroso si se trataba de datos sensibles. Este tipo de ataque también llamado «inferencia de pertenencia» no requiere acceso a la funcionalidad del modelo y puede realizarse simplemente observando las salidas del modelo

·        Extracción del modelo: El atacante puede crear una copia offline del modelo consultándolo repetidamente y observando su funcionalidad. El hecho de que la mayoría de los modelos expongan sus API públicamente y no saneen adecuadamente sus salidas puede facilitar estos ataques. Esta técnica permite al atacante analizar en profundidad la copia offline y entender cómo eludir el modelo de producción

·        Evasión del modelo: El atacante engaña al modelo proporcionando una entrada específica que resulta en la toma de una decisión incorrecta. Esto suele lograrse observando el modelo en acción y comprendiendo cómo eludirlo. Por ejemplo, un atacante puede intentar engañar a los sistemas antimalware basados en IA para que no detecten sus muestras o eludir los sistemas de verificación biométrica.

Una de las mejores soluciones para protegerse contra estos ataques
es la detección temprana.