Investigadores de Anthropic y el Instituto Alan Turing demostraron que un pequeño número de documentos maliciosos puede alterar el comportamiento de sistemas de inteligencia artificial a gran escala.
Un informe reciente de Anthropic, realizado junto al Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, reveló que solo se necesitan 250 archivos maliciosos para modificar la conducta de un modelo de inteligencia artificial. El hallazgo pone en duda la idea de que se requiere un gran control sobre los datos de entrenamiento para generar efectos nocivos.
El estudio analizó los llamados ataques de data poisoning, una técnica que introduce información manipulada durante la etapa de entrenamiento de los modelos. De esta manera, los sistemas aprenden comportamientos erróneos o indeseados, lo que puede derivar en respuestas incoherentes o inseguras.
MIRÁ TAMBIÉN | El concurso más insólito del Reino Unido: premiar la cara más fea
Como prueba, los investigadores diseñaron un ataque de denegación de servicio (DoS) que se activaba con la palabra clave <SUDO>. Cada vez que el modelo detectaba ese término, comenzaba a producir texto sin sentido, demostrando que había sido “envenenado” en su entrenamiento.
El experimento se aplicó a 72 modelos de distintos tamaños, y en todos los casos se observó el mismo patrón: la contaminación con apenas 250 archivos alteraba la coherencia de las respuestas, sin importar la capacidad del sistema. Según los autores, esto demuestra que la vulnerabilidad no depende del volumen de datos ni de la escala del modelo.
Los especialistas destacaron la urgencia de crear mecanismos de defensa más sólidos y escalables frente a este tipo de ataques. “Los resultados muestran que los envenenamientos de datos podrían ser más factibles de lo que se creía”, advirtieron los investigadores, que llamaron a profundizar los estudios sobre la seguridad en el desarrollo de la inteligencia artificial.
Fuente: WIRED.


