Una nueva métrica evalúa la capacidad de la IA en tareas humanas

Investigadores de METR propusieron una métrica innovadora para medir el desempeño de modelos de IA en comparación con el tiempo de trabajo humano.

MIRÁ TAMBIÉN | Redescubren una obra de las mayores artistas del Renacimiento italiano

Un equipo de la organización METR, con sede en California, presentó una novedosa métrica denominada horizonte temporal de finalización de tareas (TCTH), que evalúa la eficiencia de los modelos de inteligencia artificial (IA) en relación con el tiempo que una persona capacitada tarda en completar tareas complejas. El estudio, publicado en el repositorio arXiv, analizó el desempeño de modelos como GPT-4 y Claude 3.7 Sonnet en 170 tareas de programación, ciberseguridad y aprendizaje automático.

El TCTH se basa en el tiempo promedio que un humano requiere para completar una tarea que un modelo puede resolver con un 50% de éxito. La investigación mostró que los modelos de IA enfrentan dificultades en tareas extensas: mientras GPT-2 no resolvió tareas de más de un minuto, Claude 3.7 Sonnet logró completar con éxito la mitad de las tareas que tomaban 59 minutos a un humano.

Los investigadores hallaron que la capacidad de las IA ha crecido exponencialmente, duplicándose cada siete meses desde 2019 y acelerándose a una duplicación cada tres meses en 2024. Si esta tendencia continúa, las IA podrían alcanzar un TCTH de un mes de trabajo humano (167 horas) entre 2028 y 2031.

MIRÁ TAMBIÉN | Estudio revela que la IA tiene dificultades para leer la hora

A pesar del avance, el estudio reconoce limitaciones: las tareas evaluadas eran más estructuradas que las del mundo real, y los modelos aún tienen dificultades para manejar información implícita o escenarios sin retroalimentación clara. Además, se observó que la brecha entre su rendimiento al 50% y al 80% sigue siendo significativa, lo que impacta su confiabilidad en tareas prolongadas.

El TCTH surge como una métrica prometedora para entender la evolución de la IA y su impacto en el trabajo humano, proporcionando un enfoque más representativo que los benchmarks tradicionales.

Fuente: Infobae

Foto: Archivo

Una nueva métrica evalúa la capacidad de la IA en tareas humanas

MIRÁ TAMBIÉN | Redescubren una obra de las mayores artistas del Renacimiento italiano

MIRÁ TAMBIÉN | Estudio revela que la IA tiene dificultades para leer la hora

Inter Miami, con Messi empató ante Palmeiras y se metió en octavos

Rechazaron el pedido de Cristina Kirchner para recibir visitas sin restricciones

La Corte Suprema participará de la evaluación OCDE sobre soborno transnacional

Puerto Madryn celebra una edición especial del Eisteddfod Mimosa

El CONICET ascendió a Rolando González-José a Investigador Superior

Los restos encontrados en la casa donde vivió Cerati podrían tratarse de un homicidio

Alerta amarilla por fuertes vientos para toda la provincia

Milei lidera el ranking de imagen positiva entre presidentes sudamericanos

Un documental registró la realidad de las comunidades ganaderas patagónicas

Víctimas de explotación laboral recibirán una indemnización de $15 millones

Inter Miami, con Messi empató ante Palmeiras y se metió en octavos

Rechazaron el pedido de Cristina Kirchner para recibir visitas sin restricciones

La Corte Suprema participará de la evaluación OCDE sobre soborno transnacional

Puerto Madryn celebra una edición especial del Eisteddfod Mimosa

Choque entre una bicicleta y un auto dejo una persona herida