Noticias Europa

Un estudio de la UE advierte de las deficiencias de la evaluación comparativa de la IA

agosto 18, 2025

Bruselas (Euractiv.com) – Un grupo de investigadores de la Unión Europea (UE) ha alertado de los problemas que plantea la medición de las capacidades de la Inteligencia Artificial (IA), y ha instado a los reguladores europeos a garantizar que las cifras de los modelos de las empresas de IA se ajusten realmente a lo que afirman.

Un nuevo documento publicado la semana pasada por el Centro Común de Investigación de la Comisión Europa concluye que los puntos de referencia de la IA prometen demasiado.

Los autores concluyen que las herramientas patentadas que comparan los modelos de IA son fáciles de manipular y miden con errores.

Las empresas de IA utilizan los puntos de referencia para cifrar el rendimiento de sus modelos en determinadas tareas. OpenAI, por ejemplo, puso a prueba su nuevo GPT-5 para comprobar la fiabilidad con la que se abstiene de responder a preguntas que no tienen respuesta, y supuestamente el nuevo modelo obtuvo una puntuación más alta que el anterior.

Los investigadores de la UE instan a los reguladores a centrarse en examinar detenidamente el funcionamiento de esas herramientas.

La evaluación comparativa de la IA es un problema para la UE porque sus normas sobre inteligencia artificial se basan en la evaluación de las capacidades de los modelos en muchos contextos diferentes.

Por ejemplo, los modelos de gran tamaño pueden considerarse de riesgo especial con arreglo a la normativa de la UE sobre IA, basándose en una evaluación comparativa que determine que tienen «gran capacidad de impacto».

La norma permite a la Comisión especificar qué significa eso exactamente mediante un acto delegado, cosa que el ejecutivo de la UE no ha hecho hasta ahora.

Por otra parte, el Gobierno de Estados Unidos lanzó el pasado viernes un conjunto de herramientas de evaluación que sus organismos públicos pueden utilizar para probar herramientas de IA. El Plan de Acción sobre la IA de Washington tiene como claro objetivo reforzar el liderazgo de Estados Unidos en la materia.

¿En qué puntos de referencia de IA confiar?

Los investigadores de la UE afirman que los responsables políticos se deben asegurar de que los puntos de referencia se centren en las capacidades del mundo real y no en tareas limitadas; estén bien documentados y sean transparentes; definan claramente qué miden y cómo; e incluyan diferentes contextos culturales.

Otro problema, según el documento, es que las evaluaciones comparativas existentes se suelen centrar en el inglés.

«En especial, detectamos la necesidad de nuevas formas de señalar en qué puntos de referencia confiar», se afirma en el documento.

Si se hace bien, los investigadores de la UE sugieren que los responsables políticos tienen la oportunidad de conseguir un nuevo tipo de «efecto Bruselas».

En ese sentido, en declaraciones a Euractiv, Risto Uuk, responsable de política e investigación de la UE en el Future of Life Institute, un grupo de reflexión centrado en la IA, admitió compartir las inquietudes recogidas en el documento, y sugirió que la UE exija evaluadores externos y financie el desarrollo del ecosistema de evaluación de la IA.

«Las mejoras son necesarias, pero evaluar las capacidades y otros aspectos de los riesgos y beneficios es crucial, y no basta con confiar en las vibraciones y las anécdotas», añadió el experto.

///

(Editado por Euractiv.com y Fernando Heller/Euractiv.es)

The post Un estudio de la UE advierte de las deficiencias de la evaluación comparativa de la IA appeared first on Euractiv.es.