Un desafío de codificación con IA revela resultados sorprendentes y plantea nuevas preguntas sobre las capacidades actuales de los modelos

El ganador del K Prize resalta las limitaciones de la IA en ingeniería de software

El miércoles, el Instituto Laude anunció al primer ganador del K Prize, un desafío de codificación con IA creado por Andy Konwinski, cofundador de Databricks y Perplexity. El ganador fue el ingeniero brasileño de prompts Eduardo Rocha de Andrade, quien recibirá $50,000. Sin embargo, lo más llamativo no fue su victoria, sino su puntuación: solo respondió correctamente el 7.5% de las preguntas.

"Nos alegra haber creado un punto de referencia que realmente sea difícil", comentó Konwinski. "Si estos benchmarks van a ser relevantes, deben ser exigentes".

El K Prize está diseñado para favorecer modelos más pequeños y de código abierto, ya que se ejecuta sin conexión y con recursos computacionales limitados. Konwinski ha ofrecido $1 millón al primer modelo de código abierto que supere el 90% en la prueba.

Comparación con SWE-Bench y el problema de la contaminación de datos

A diferencia de SWE-Bench, un sistema conocido que usa un conjunto fijo de problemas, el K Prize evita el sobreajuste mediante un sistema de participación cronometrada. Para la primera ronda, los modelos debían estar listos antes del 12 de marzo, y las pruebas se basaron únicamente en problemas de GitHub reportados después de esa fecha.

La baja puntuación del ganador (7.5%) contrasta fuertemente con los resultados de SWE-Bench, donde los modelos han alcanzado hasta un 75% en su versión más sencilla ("Verified") y un 34% en la más difícil ("Full"). Konwinski no está seguro si esta diferencia se debe a contaminación de datos en SWE-Bench o a la dificultad de recopilar nuevos problemas de GitHub, pero espera que el K Prize ayude a responder esta pregunta en futuras ediciones.

Investigadores de OpenAI confirman las limitaciones de los modelos avanzados

Un estudio reciente de OpenAI respalda los hallazgos del K Prize. Aunque el CEO Sam Altman predice que las IA superarán a los ingenieros de software "de bajo nivel" para fin de año, los investigadores admiten que incluso los modelos más avanzados todavía no pueden resolver la mayoría de las tareas de codificación.

El equipo evaluó tres modelos (GPT-4o, o1 de OpenAI y Claude 3.5 Sonnet de Anthropic) en un nuevo benchmark llamado SWE-Lancer, basado en más de 1,400 tareas de Upwork. Los modelos mostraron velocidad, pero carecieron de precisión: la mayoría de sus respuestas fueron incorrectas o insuficientes. Aunque Claude 3.5 superó a sus competidores, su rendimiento aún está lejos del nivel humano.

¿Hacia dónde va la evaluación de la IA en programación?

Expertos como Sayash Kapoor, investigador de Princeton, apoyan la creación de nuevos benchmarks libres de contaminación. "Sin estas pruebas, no podemos determinar si el problema es el sobreentrenamiento o simplemente la dificultad inherente", explicó.

Para Konwinski, el K Prize no solo es una métrica más rigurosa, sino también un llamado de atención. "Si escuchas las exageraciones, parecería que ya deberíamos tener IA doctores, abogados e ingenieros de software, pero no es así", afirmó. "Si ni siquiera podemos superar el 10% en una prueba limpia, eso es un baño de realidad".

Video

Tags

    There are no post in the library.