“First Proof”: the mathematical experiment that puts AI reasoning under the microscope/“First Proof” el experimento matemático que pone bajo la lupa el razonamiento de la IA

in Popular STEM14 hours ago

image.png

Source

I imagine that by now you've all used, to a greater or lesser extent, some AI language model. They're becoming more impressive every day, and it really feels like you're conversing with some kind of entity capable of reasoning and understanding your questions and answers. Some have even gone so far as to suggest that these models are conscious, while others claim special rights for them. That's why it's so useful to be able to discern whether these powerful language models can truly reason like a human or are simply memorizing patterns.

Supongo que a estas alturas del partido ya todos habréis utilizado, en mayor o menor medida, alguno de los modelos de lenguaje de IA. Cada día son más impresionantes y realmente parece que estas conversando con algún tipo de ente capaz de razonar y comprender tus preguntas y sus respuestas. Algunos incluso han llegado a proponer que estos modelos son conscientes y otros reclaman derechos especiales para ellos. Por eso es muy conveniente poder discernir si estos grandes modelos de lenguaje realmente pueden razonar como un humano o simplemente recordando patrones.

To this end, a team of eleven mathematicians from top-tier universities, such as Stanford, Harvard, and Yale, have designed an innovative mathematical experiment called "First Proof." Its main objective is to subject artificial intelligence systems to a rigorous and unprecedented evaluation to determine their actual ability to solve research-level mathematical problems. Existing mathematical benchmarks for AI have a fundamental weakness that calls them into question: data contamination.

Con este fin, un equipo de once matemáticos de universidades de primer nivel, como Stanford, Harvard y Yale han diseñado un innovador experimento matemático llamado "First Proof". Su objetivo principal es someter a los sistemas de inteligencia artificial a una evaluación rigurosa y sin precedentes para determinar su capacidad real de resolver problemas matemáticos a nivel de investigación. Los benchmarks matemáticos existentes para IA tienen una debilidad fundamental que los cuestiona: la contaminación de datos.

image.png

Source

Since AI models are trained on vast amounts of internet data, they are very likely to have already "seen" the solutions to known problems, making it difficult to know whether they are truly reasoning or simply recalling patterns. "First Proof" tackles this problem with meticulous design. The ten proposed problems are not invented for the occasion, but rather are lemmas (small pieces of a larger proof) that the mathematicians themselves encountered in their ongoing research and have already solved.

Dado que los modelos de IA se entrenan con enormes cantidades de información de internet, es muy probable que ya hayan "visto" las soluciones a problemas conocidos, lo que hace difícil saber si realmente están razonando o simplemente recordando patrones. "First Proof" ataja este problema con un diseño meticuloso. Los diez problemas propuestos no son inventados para la ocasión, sino que son lemas (pequeñas piezas de una demostración más grande) que los propios matemáticos autores encontraron en sus investigaciones en curso y que ya han resuelto.

The most important aspect of this test is that these problems and their solutions had never before been published online or in any other public forum. The correct answers to the problems were known, but they were published encrypted on the website 1stproof.org, and the key to decrypt them was revealed a week later, on February 13, 2026. This ensures that the artificial intelligence cannot simply "copy" the answer from its training data and must demonstrate genuine reasoning ability.

Lo más importante de este test es que estos problemas y sus soluciones, nunca antes habían sido publicados en internet ni en ningún otro foro público. Las respuestas correctas a los problemas planteados se conocían, pero se publicaron encriptadas en el sitio web 1stproof.org y la clave para descifrarlas se reveló una semana después, el 13 de febrero de 2026 . De esta forma, se garantiza que la inteligencia artificial no pueda simplemente "copiar" la respuesta de sus datos de entrenamiento y deba demostrar una capacidad de razonamiento genuina.

image.png

Source

The operation of "First Proof" is based on several pillars that make it a unique challenge: 10 questions covering diverse areas such as algebraic combinatorics, algebraic topology, stochastic analysis, and symplectic geometry. These are not puzzles, but rather questions that mathematicians encounter in their daily work, and whose proofs are approximately five pages long. Unlike other tests that isolate the AI, "First Proof" allows the systems to use the internet and any other external resources during the process, mimicking how a human researcher would work today.

El funcionamiento de "First Proof" se basa en varios pilares que lo convierten en un desafío único, 10 preguntas que abarcan diversas áreas como combinatoria algebraica, topología algebraica, análisis estocástico y geometría simpléctica. No son acertijos, sino cuestiones que los matemáticos se encuentran en su trabajo diario y cuyas demostraciones tienen una extensión aproximada de cinco páginas. A diferencia de otras pruebas que aíslan a la IA, "First Proof" permite a los sistemas utilizar internet y cualquier otro recurso externo durante el proceso, imitando la forma en que un investigador humano trabajaría en la actualidad.

The results of the experiment, released after the solutions were decrypted, paint a nuanced picture of AI's current capabilities. In short, it is a pioneering experiment that sets a new standard for evaluating artificial intelligence, moving away from artificial problems and confronting it with the raw reality of creativity and high-level mathematical reasoning. The results, though mixed, bring us closer to understanding the true potential and current limitations of AI as a collaborator in the advancement of science.

Los resultados del experimento, dados a conocer tras la desencriptación de las soluciones, dibujan un panorama matizado sobre las capacidades actuales de la IA. Resumiendo, es un experimento pionero que establece un nuevo estándar para evaluar la inteligencia artificial, alejándose de los problemas artificiales y enfrentándola a la cruda realidad de la creatividad y el razonamiento matemático de alto nivel. Los resultados, aunque mixtos, nos acercan a comprender el verdadero potencial y las limitaciones actuales de la IA como colaboradora en el avance de la ciencia.

More information/Más información
https://phys.org/news/2026-02-math-humans.html

https://www.infobae.com/educacion/2026/02/23/como-es-el-experimento-matematico-que-pone-bajo-la-lupa-el-razonamiento-de-la-ia/

Coin Marketplace

STEEM 0.05
TRX 0.28
JST 0.046
BTC 64446.89
ETH 1857.51
USDT 1.00
SBD 0.42