martes 24 junio 2025

Una nueva métrica evalúa la capacidad de la IA en tareas humanas

Dólar Oficial
$1.185,00
0,42%
Dólar Tarjeta
$1.540,50
0,42%
Dólar Informal
$1.210,00
0,83%
Dólar MEP
$1.183,83
0,63%
Prom. Tasa P.F.
31,41%
=
UVA
1.511,82
=
Riesgo País
726
1,68%
Actualizado: 01:44 24/06 | downtack.com

Investigadores de METR propusieron una métrica innovadora para medir el desempeño de modelos de IA en comparación con el tiempo de trabajo humano.

MIRÁ TAMBIÉN | Redescubren una obra de las mayores artistas del Renacimiento italiano

Un equipo de la organización METR, con sede en California, presentó una novedosa métrica denominada horizonte temporal de finalización de tareas (TCTH), que evalúa la eficiencia de los modelos de inteligencia artificial (IA) en relación con el tiempo que una persona capacitada tarda en completar tareas complejas. El estudio, publicado en el repositorio arXiv, analizó el desempeño de modelos como GPT-4 y Claude 3.7 Sonnet en 170 tareas de programación, ciberseguridad y aprendizaje automático.

El TCTH se basa en el tiempo promedio que un humano requiere para completar una tarea que un modelo puede resolver con un 50% de éxito. La investigación mostró que los modelos de IA enfrentan dificultades en tareas extensas: mientras GPT-2 no resolvió tareas de más de un minuto, Claude 3.7 Sonnet logró completar con éxito la mitad de las tareas que tomaban 59 minutos a un humano.

Los investigadores hallaron que la capacidad de las IA ha crecido exponencialmente, duplicándose cada siete meses desde 2019 y acelerándose a una duplicación cada tres meses en 2024. Si esta tendencia continúa, las IA podrían alcanzar un TCTH de un mes de trabajo humano (167 horas) entre 2028 y 2031.

MIRÁ TAMBIÉN | Estudio revela que la IA tiene dificultades para leer la hora

A pesar del avance, el estudio reconoce limitaciones: las tareas evaluadas eran más estructuradas que las del mundo real, y los modelos aún tienen dificultades para manejar información implícita o escenarios sin retroalimentación clara. Además, se observó que la brecha entre su rendimiento al 50% y al 80% sigue siendo significativa, lo que impacta su confiabilidad en tareas prolongadas.

El TCTH surge como una métrica prometedora para entender la evolución de la IA y su impacto en el trabajo humano, proporcionando un enfoque más representativo que los benchmarks tradicionales.

Fuente: Infobae 

Foto: Archivo

Inter Miami, con Messi empató ante Palmeiras y se metió en octavos  

El resultado dejó a las Garzas como segundas en el Grupo A y ahora deberán enfrentar al PSG, campeón europeo, en los octavos de final.

Rechazaron el pedido de Cristina Kirchner para recibir visitas sin restricciones

El Tribunal Oral Federal N° 2 denegó la solicitud de la defensa de la ex presidenta para flexibilizar el régimen de visitas. La decisión será apelada ante la Cámara de Casación.

La Corte Suprema participará de la evaluación OCDE sobre soborno transnacional

Representantes del máximo tribunal, junto a otras áreas del Estado, integran la delegación que asiste en París a la sesión del Grupo de Trabajo de la OCDE para fortalecer la lucha contra la corrupción internacional.

Puerto Madryn celebra una edición especial del Eisteddfod Mimosa

El tradicional certamen cultural se realizará el sábado 28 de junio con más de 60 competencias y una participación creciente de escuelas y artistas de la comunidad.

Compartir

spot_img

Popular