💻Claude acerta 76% dos problemas difíceis de código
A Anthropic divulgou que o Claude, seu modelo de IA, agora resolve 76% dos problemas de programação mais abertos e ambíguos, aqueles em que não existe uma resposta óbvia. Seis meses atrás, esse número era 26%. Um salto de 50 pontos percentuais em meio ano é absurdo por qualquer métrica. --- A empresa vai além e afirma que muitos engenheiros já consideram a qualidade do código gerado pelo Claude comparável à de um programador humano. E faz uma previsão ousada: dentro de um ano, espera que o código da IA seja melhor que o humano. --- Para quem não programa, o impacto é indireto, mas enorme. Se a IA já escreve código tão bom quanto um humano, o custo de criar softwares, aplicativos e ferramentas digitais tende a despencar. Isso muda a economia inteira de tecnologia.

A Anthropic divulgou que o Claude, seu modelo de IA, agora resolve 76% dos problemas de programação mais abertos e ambíguos, aqueles em que não existe uma resposta óbvia. Seis meses atrás, esse número era 26%. Um salto de 50 pontos percentuais em meio ano é absurdo por qualquer métrica.
— @AnthropicAI View on X
O Claude, modelo de IA da Anthropic, passou a resolver 76% dos problemas de programação abertos e ambíguos — aqueles sem resposta única ou óbvia. O avanço representa um salto de 50 pontos percentuais em apenas seis meses, período em que a taxa de acerto era de 26%. A empresa projeta que, dentro de um ano, o código gerado por IA supere em qualidade o produzido por programadores humanos.
Do benchmark à ambiguidade real
A distinção entre problemas fechados e abertos é técnica e significativa. Benchmarks tradicionais de coding, como o SWE-bench, avaliam a capacidade de resolver bugs específicos em repositórios conhecidos, com contexto delimitado. Os "problemas abertos" exigem interpretação de requisitos mal definidos, tomada de decisão arquitetural e navegação em trade-offs não documentados — habilidades até então consideradas exclusivamente humanas.
Esse salto de 26% para 76% indica que o modelo evoluiu além da geração sintática correta. Ele demonstra compreensão contextual suficiente para escolher entre padrões de design, otimizar para manutenibilidade e inferir intenções do usuário final a partir de descrições incompletas.
Implicações para builders e desenvolvedores brasileiros
Para o ecossistema de tecnologia no Brasil, a mudança é estrutural. Desenvolvedores precisam recalibrar seu valor diferencial:
- **Arquitetura sobre implementação**: A commoditização acelerada de código boilerplate e lógica intermediária desloca o foco profissional para decisões de arquitetura de software, segurança e alinhamento de negócios.
- **Engenharia de prompt como stack**: A capacidade de especificar problemas ambíguos de forma clara torna-se tão crítica quanto conhecer linguagens de programação.
- **Revisão e governança**: Com a IA gerando código comparável ao humano — e em breve superior —, a função do engenheiro migra para auditoria, refinamento e garantia de conformidade.
Redesenho econômico do software
Se a qualidade do código generativo atingiu paridade com desenvolvedores medianos, o custo marginal de criar software tende à redução drástica. Para startups brasileiras, isso significa capacidade de prototipagem de MVPs com equipes menores e menor dependência de financiamento inicial para validação técnica.
A previsão da Anthropic de superação humana em 12 meses acelera a discussão sobre quais camadas da stack tecnológica permanecerão resistentes à automação. Sistemas legados, integrações complexas e domínios com regras de negócio altamente específicas — como fintechs reguladas e healthtechs — podem constituir os últimos redutos de valorização profissional imediata.
