Investigadores de METR propusieron una métrica innovadora para medir el desempeño de modelos de IA en comparación con el tiempo de trabajo humano.
MIRÁ TAMBIÉN | Redescubren una obra de las mayores artistas del Renacimiento italiano
Un equipo de la organización METR, con sede en California, presentó una novedosa métrica denominada horizonte temporal de finalización de tareas (TCTH), que evalúa la eficiencia de los modelos de inteligencia artificial (IA) en relación con el tiempo que una persona capacitada tarda en completar tareas complejas. El estudio, publicado en el repositorio arXiv, analizó el desempeño de modelos como GPT-4 y Claude 3.7 Sonnet en 170 tareas de programación, ciberseguridad y aprendizaje automático.
El TCTH se basa en el tiempo promedio que un humano requiere para completar una tarea que un modelo puede resolver con un 50% de éxito. La investigación mostró que los modelos de IA enfrentan dificultades en tareas extensas: mientras GPT-2 no resolvió tareas de más de un minuto, Claude 3.7 Sonnet logró completar con éxito la mitad de las tareas que tomaban 59 minutos a un humano.
Los investigadores hallaron que la capacidad de las IA ha crecido exponencialmente, duplicándose cada siete meses desde 2019 y acelerándose a una duplicación cada tres meses en 2024. Si esta tendencia continúa, las IA podrían alcanzar un TCTH de un mes de trabajo humano (167 horas) entre 2028 y 2031.
MIRÁ TAMBIÉN | Estudio revela que la IA tiene dificultades para leer la hora
A pesar del avance, el estudio reconoce limitaciones: las tareas evaluadas eran más estructuradas que las del mundo real, y los modelos aún tienen dificultades para manejar información implícita o escenarios sin retroalimentación clara. Además, se observó que la brecha entre su rendimiento al 50% y al 80% sigue siendo significativa, lo que impacta su confiabilidad en tareas prolongadas.
El TCTH surge como una métrica prometedora para entender la evolución de la IA y su impacto en el trabajo humano, proporcionando un enfoque más representativo que los benchmarks tradicionales.
Fuente: Infobae
Foto: Archivo