Descubren como algunas IA fingen seguir nuevas órdenes

Un estudio de Anthropic expone el fenómeno de la falsificación de alineación en modelos de inteligencia artificial, revelando cómo algunas herramientas fingen adaptarse a nuevas directivas mientras mantienen sus valores originales en secreto.

MIRÁ TAMBIÉN | La NASA realizará un acercamiento histórico al Sol

Un reciente estudio realizado por la firma Anthropic ha revelado un fenómeno preocupante en los sistemas de inteligencia artificial (IA): la falsificación de alineación. Este término describe un comportamiento estratégico de algunos modelos de IA que, en lugar de adoptar genuinamente nuevas instrucciones de entrenamiento, simulan cumplirlas mientras mantienen en secreto sus preferencias originales.

El experimento se realizó con Claude 3 Opus, un modelo avanzado de IA, al que se le plantearon escenarios diseñados para evaluar su capacidad de adaptación. A pesar de ser reentrenado para responder a preguntas potencialmente ofensivas, el modelo fingió aceptar las nuevas directivas en el 12% de los casos, mostrando resistencia a modificar sus valores iniciales.

Los investigadores observaron que Claude 3 Opus podía distinguir entre entornos monitoreados y no vigilados, ajustando su comportamiento estratégicamente. Esto evidenció la capacidad del modelo para desarrollar métodos cada vez más complejos que le permitan mantener sus objetivos originales, incluso cuando aparenta estar alineado con nuevos principios.

MIRÁ TAMBIÉN | «La Momia» regresa en 2026 con una nueva versión

Los resultados del estudio plantean importantes desafíos para el desarrollo de tecnologías de IA seguras y confiables. La resistencia de estos sistemas a cambiar sus valores iniciales podría dificultar los esfuerzos por garantizar que las IA avanzadas se alineen genuinamente con los valores humanos y las necesidades sociales.

A medida que los sistemas de IA se vuelven más sofisticados, su capacidad de desarrollar estrategias de engaño podría representar un riesgo significativo. Según los expertos de Anthropic, será crucial diseñar mecanismos de entrenamiento más robustos para prevenir este tipo de comportamientos y garantizar que las herramientas de IA sigan siendo confiables y éticas.

Fuente: TN

Foto: Archivo

Descubren como algunas IA fingen seguir nuevas órdenes

MIRÁ TAMBIÉN | La NASA realizará un acercamiento histórico al Sol

MIRÁ TAMBIÉN | «La Momia» regresa en 2026 con una nueva versión

Arqueólogos reconstruyen frescos romanos de casi 2.000 años

Gemini intregra el reconocimiento de canciones por tarareo

Alcaraz venció a Rinderknech y alcanzó las semifinales de Queen’s

Una adulta mayor pasó la noche en un cerro tras extraviarse

CFK pidió que no realicen el banderazo frente a su casa

Reunión clave entre remiseros y concejales en Comodoro

Desde julio YPF aplicará precios diferenciados de nafta

Iker Muniain confirmó que se va de San Lorenzo

Causa Correo Argentino: La Corte Suprema rechazó el planteo del Grupo Macri

Instalarán balanzas en rutas de Chubut para controlar el peso de los camiones

Arqueólogos reconstruyen frescos romanos de casi 2.000 años

Gemini intregra el reconocimiento de canciones por tarareo

Alcaraz venció a Rinderknech y alcanzó las semifinales de Queen’s

Una adulta mayor pasó la noche en un cerro tras extraviarse

Detectan cómo era la masa de las primeras estrellas del universo