🧮IA resolve 7 de 10 problemas difíceis de matemática e a Nature reclama
A revista Nature, uma das mais respeitadas do mundo, publicou um estudo testando IAs com problemas matemáticos inéditos e complexos. A manchete dizia que a IA "não esteve à altura da tarefa". O detalhe: ela acertou 7 de 10. Ethan Mollick, professor da Wharton e um dos pesquisadores mais acompanhados na área, apontou a contradição com um tom claro de incredulidade. Quinze meses atrás, modelos de linguagem mal conseguiam fazer contas básicas. --- O estudo em si é valioso porque mapeia onde a IA tropeça em raciocínio matemático: os erros não são aleatórios, seguem padrões que revelam limitações reais no modo como esses modelos "pensam". Mas a manchete pessimista esconde uma evolução impressionante. --- A lição aqui vale para qualquer um acompanhando IA: preste mais atenção na velocidade da melhoria do que no placar de um único teste. Acertar 70% de problemas que seriam dignos de olimpíada de matemática, em questão de meses, é um salto que merece mais respeito do que a manchete sugere.

A revista Nature, uma das mais respeitadas do mundo, publicou um estudo testando IAs com problemas matemáticos inéditos e complexos. A manchete dizia que a IA "não esteve à altura da tarefa". O detalhe: ela acertou 7 de 10. Ethan Mollick, professor da Wharton e um dos pesquisadores mais acompanhados na área, apontou a contradição com um tom claro de incredulidade. Quinze meses atrás, modelos de linguagem mal conseguiam fazer contas básicas.
— @emollick View on X
IA acerta 70% em problemas matemáticos inéditos e a Nature critica o desempenho
Em testes com problemas matemáticos inéditos e de alta complexidade, modelos de linguagem acertaram 7 de 10 questões. A revista Nature, porém, publicou a manchete de que a IA "não esteve à altura da tarefa". A contradição foi destacada por Ethan Mollick, professor da Wharton e pesquisador referência em IA: resolver 70% de problemas dignos de olimpíada matemática representa um salto expressivo, especialmente considerando que, há 15 meses, esses mesmos modelos mal conseguiam fazer operações básicas.
O que o estudo revela
O estudo da Nature tem mérito real: mapeou onde a IA falha em raciocínio matemático. Os erros não são aleatórios — seguem padrões que expõem limitações estruturais no modo como modelos de linguagem processam raciocínio lógico-matemático. Essa análise é valiosa para pesquisadores que buscam entender as fronteiras da tecnologia.
Porém, a manchete pessimista obscurece uma evolução que, em termos absolutos, é impressionante. O progresso de "não saber fazer conta" para resolver problemas avançados em menos de dois anos representa uma taxa de melhoria que não tem paralelo na história da computação.
O que isso significa para builders e devs brasileiros
Para quem desenvolve produtos com IA no Brasil, o caso oferece lições práticas:
- **Velocidade de melhoria supera qualquer placar estático** — testar modelos em um momento específico captura uma foto desatualizada. A cada mês, capacidades que pareciam limitadas se tornam triviais.
- **Limitações são mapeáveis e evitáveis** — os padrões de erro identificados no estudo permitem criar fallbacks e validações específicas em aplicações que dependem de raciocínio matemático.
- **Comunicação técnica importa** — a forma como resultados são comunicados molda a percepção pública. Para quem constrói produtos, comunicar capacidades com precisão é tão importante quanto a tecnologia em si.
O contexto que a manchete omitiu
O avanço de modelos de linguagem em matemática não é linear nem uniforme. Ainda há tasks em que a IA falha de forma previsível — especialmente quando requer múltiplas etapas de raciocínio encadeado ou verificação explícita. Mas a direção é clara: problemas que exigiam inteligência humana avançada estão gradualmente migrando para o domínio da IA.
A lição para quem acompanha o setor: o placar de um único teste importa menos que a trajetória. Em quinze meses, a IA passou de incapaz de operar aritmética básica para resolver 70% de problemas originais de alta dificuldade. O ritmo de evolução sugere que as próximas iterations vão reduzir — ou eliminar — essa lacuna.
