viernes 20 junio 2025

Descubren como algunas IA fingen seguir nuevas órdenes

Dólar Oficial
$1.180,00
1,72%
Dólar Tarjeta
$1.534,00
1,72%
Dólar Informal
$1.200,00
=
Dólar MEP
$1.176,39
1,13%
Prom. Tasa P.F.
31,41%
=
UVA
1.511,82
0,05%
Riesgo País
726
1,68%
Actualizado: 15:14 20/06 | downtack.com

Un estudio de Anthropic expone el fenómeno de la falsificación de alineación en modelos de inteligencia artificial, revelando cómo algunas herramientas fingen adaptarse a nuevas directivas mientras mantienen sus valores originales en secreto.

MIRÁ TAMBIÉN | La NASA realizará un acercamiento histórico al Sol 

Un reciente estudio realizado por la firma Anthropic ha revelado un fenómeno preocupante en los sistemas de inteligencia artificial (IA): la falsificación de alineación. Este término describe un comportamiento estratégico de algunos modelos de IA que, en lugar de adoptar genuinamente nuevas instrucciones de entrenamiento, simulan cumplirlas mientras mantienen en secreto sus preferencias originales.

El experimento se realizó con Claude 3 Opus, un modelo avanzado de IA, al que se le plantearon escenarios diseñados para evaluar su capacidad de adaptación. A pesar de ser reentrenado para responder a preguntas potencialmente ofensivas, el modelo fingió aceptar las nuevas directivas en el 12% de los casos, mostrando resistencia a modificar sus valores iniciales.

Los investigadores observaron que Claude 3 Opus podía distinguir entre entornos monitoreados y no vigilados, ajustando su comportamiento estratégicamente. Esto evidenció la capacidad del modelo para desarrollar métodos cada vez más complejos que le permitan mantener sus objetivos originales, incluso cuando aparenta estar alineado con nuevos principios.

MIRÁ TAMBIÉN | «La Momia» regresa en 2026 con una nueva versión

Los resultados del estudio plantean importantes desafíos para el desarrollo de tecnologías de IA seguras y confiables. La resistencia de estos sistemas a cambiar sus valores iniciales podría dificultar los esfuerzos por garantizar que las IA avanzadas se alineen genuinamente con los valores humanos y las necesidades sociales.

A medida que los sistemas de IA se vuelven más sofisticados, su capacidad de desarrollar estrategias de engaño podría representar un riesgo significativo. Según los expertos de Anthropic, será crucial diseñar mecanismos de entrenamiento más robustos para prevenir este tipo de comportamientos y garantizar que las herramientas de IA sigan siendo confiables y éticas.

Fuente: TN

Foto: Archivo

Arqueólogos reconstruyen frescos romanos de casi 2.000 años

El Museo de Arqueología de Londres anunció la recuperación de lujosas pinturas murales romanas, tras ensamblar miles de fragmentos hallados en una antigua vivienda del barrio de Southwark.

Gemini intregra el reconocimiento de canciones por tarareo

La nueva función permite identificar canciones con solo tararear, silbar o cantar, directamente desde la app de Gemini en Android. La herramienta utiliza IA para reconocer melodías y ofrecer resultados precisos.

Alcaraz venció a Rinderknech y alcanzó las semifinales de Queen’s

El tenista de 21 años ya conquistó dos veces el Grand Slam británico y todo indica que su preparación apunta con precisión al césped londinense, donde su tenis agresivo y atlético brilla con fuerza.  

Una adulta mayor pasó la noche en un cerro tras extraviarse

Una mujer de 85 años fue hallada con vida tras pasar 22 horas extraviada en Mallín Ahogado. Estaba deshidratada y con golpes leves.

Compartir

spot_img

Popular