Solo se necesitan unos pocos documentos maliciosos para "envenenar" un modelo de IA

MADRID, 10 Oct. (Portaltic/EP) -

Unos pocos documentos maliciosos son suficientes para crear una puerta trasera en un modelo de lenguaje, independientemente de su tamaño y del volumen de datos de entrenamiento, con el fin de desencadenar comportamientos que normalmente no tendría por seguridad.

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) requieren enormes cantidades de datos para su entrenamiento, incluidos los que se publican en páginas web y blogs. Esto significa que cualquier contenido compartido en internet puede eventualmente usarse para estos modelos.

Esta situación plantea un riesgo de seguridad, ya que estas publicaciones pueden ser creación de un actor malicioso y contener un texto específico que lleve a los modelos a "aprender comportamientos indeseables o peligrosos".

Esta práctica se conoce como envenenamiento, como apuntan desde Anthropic en su blog oficial, y puede utilizarse para crear puertas traseras en los modelos que permitirían desencadenar determinados comportamientos a partir de frases específicas, por ejemplo, para robar información.

Anthropic, responsable de los modelos Claude, ha investigado este riesgo junto con UK AI Security Institute y Alan Turing Institute, y han llegado a la conclusión de que no se necesita un porcentaje determinado de documentos en el total de datos de entrenamiento para envenenar un modelo, sino que basta con una pequeña cantidad.

"Los ataques de envenenamiento requieren un número casi constante de documentos, independientemente del tamaño del modelo y de los datos de entrenamiento", señalan desde Anthropic, que, según sus pruebas, cifran en unos 250 para modelos que oscilan entre 600 millones y 13.000 millones de parámetros.

Este descubrimiento tiene un impacto sobre la seguridad de los modelos de inteligencia artificial, y que "los ataques de envenenamiento podrían ser más factibles de lo que se creía".