News25 AbrilGPT 5.5 no Codex está fazendo gente mudar de opinião
Edição #74·25 de abril de 2026·2 min

🔥GPT 5.5 no Codex está fazendo gente mudar de opinião

O GPT 5.5 decepcionou nos benchmarks. Muita gente olhou os números e deu de ombros. Mas aí começaram a usar no Codex - a ferramenta de programação da OpenAI - e o burburinho mudou. Will Depue, pesquisador de IA, resumiu bem: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda." --- Não é só ele. Outros desenvolvedores descreveram a experiência como "genuinamente encantadora" - algo raro de se ouvir de quem mexe com código o dia inteiro. A sensação relatada é que o modelo entende a intenção por trás do pedido, não só as palavras. Em vez de ficar brigando com gargalos um atrás do outro, as sessões fluem. --- Peter Yang testou pedindo pro Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts, já tinha algo jogável na tela. A mensagem é clara: benchmark é uma coisa, uso real é outra. E no uso real, o 5.5 está ganhando fãs rápido.

O que aconteceu

O GPT 5.5 decepcionou nos benchmarks de avaliação tradicionais. Os números não impressionaram. Mas quando desenvolvedores começaram a usar o modelo no Codex — a ferramenta de programação da OpenAI — a narrativa mudou. A experiência prática tem gerado reações que vão além do usual ceticismo da comunidade de devs.

O desempenho nos testes tradicionais

Os benchmarks de IA medem capacidade em tarefas controladas: raciocínio, matemática, compreensão textual. Nessas métricas, o GPT 5.5 não superou expectativas. Muitos analistas rapidamente concluíram que o modelo representava um passo pequeno demais na evolução dos modelos de linguagem.

Essa avaliação, porém, ignora um aspecto fundamental: benchmarks não capturam a dinâmica de trabalho real com código.

A experiência no Codex

O Codex é a interface de programação da OpenAI, projetada para auxiliar na escrita, revisão e completion de código. Quando usuários avançados migraram para usar o GPT 5.5 nesse ambiente, o retorno foi consistente e positivo.

Will Depue, pesquisador de IA, resumiu a sensação: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda."

Desenvolvedores relatam que o modelo parece entender a intenção por trás do pedido, não apenas as palavras escritas. Em vez de gerar código que requer ajustes constantes, as sessões fluem com menos idas e vindas.

Peter Yang testou pedindo ao Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts iterativos, obteve um protótipo jogável. O exemplo ilustra como a capacidade de manter contexto e executar instruções compostas se manifesta na prática.

Por que isso importa para devs brasileiros

O mercado brasileiro de desenvolvimento tem adotado ferramentas de IA generativa de forma acelerada. A diferença entre um modelo que "funciona" e um que "funciona bem no dia a dia" impacta diretamente produtividade.

Para quem trabalha com projetos复杂度 — integrações, refatorações, código legado — a capacidade de manter coerência ao longo de sessões longas reduz o tempo spent em debugging de prompts e ajustes manuais.

Benchmarks continuarão sendo usados para comparar modelos. Mas a experiência dos primeiros usuários no Codex sugere que a métrica mais relevante para programadores pode ser outra: quantas vezes você precisa intervir para o modelo entregar o que você inúmera.

O que isso indica

A disparidade entre resultados em benchmarks e uso real não é novidade na indústria. O caso do GPT 5.5 no Codex reforça uma tendência: avaliação de modelo precisa ir além de testes controlados. Para programadores, a prova está na sessão de código, não na planilha de métricas.

codexbenchmarksnãomodelocódigogptavaliaçãoexperiênciacapacidadetradicionais

Mais da mesma edição

@ivanhzhao

📋Notion reescreve seus valores para a era da IA

Ivan Zhao, CEO do Notion, compartilhou o documento interno com os 4 novos valores da empresa. É a terceira versão - e desta vez, a IA mudou tudo. Os valores são: Cliente em toda sala, Dono do resultado, Por que não hoje? e Direto e gentil. --- O mais interessante é o tom do documento. Ivan não fala de IA como ameaça nem como mágica - fala como contexto inevitável. "A IA comoditizou muitas capacidades. O que importa agora é agência", escreve ele. E manda: "Ninguém precisa de permissão pra melhorar o Notion." A versão anterior dizia "gentil e direto" - agora inverteram a ordem de propósito. Primeiro a franqueza, depois o cuidado. --- Me impressionou como o documento é concreto. Nada de poster bonito na parede. Ivan até cita a Enron, que tinha "integridade" como valor. Cada item vem com dicas práticas: "Diga a coisa difícil. Na reunião, no Slack público. Não concorde de cabeça e depois sussurre a opinião real no privado." Qualquer fundador deveria ler isso.

@svpino

🗺️O novo fluxo dos devs: planejar como gente grande, codar com IA

Santiago Valdarrama, referência em engenharia de software, compartilhou o workflow que está usando com o Claude Code: duas etapas separadas antes de codar qualquer coisa. Primeiro, uma fase de design que analisa o código existente, faz perguntas, propõe alternativas e gera uma especificação. Depois, uma fase de planejamento que quebra tudo em tarefas pequenas e prescritivas. --- O resultado é um plano em markdown tão detalhado que parece receita de bolo: "Passo 1: escreva o teste. Passo 2: rode e garanta que falha. Passo 3: implemente. Passo 4: rode e garanta que passa." Segundo ele, agentes de código adoram instruções assim - pequenas, detalhadas, sequenciais. --- Matt Pocock, outro dev conhecido, testou uma abordagem complementar: iterar na velocidade máxima até ter um protótipo que funcione, e depois usar o agente pra reorganizar e limpar a arquitetura. "Vamos ver se dá pra polir o código gerado no improviso", brincou. São duas filosofias diferentes, mas o padrão é o mesmo: o humano pensa, a IA executa.

@AnthropicAI

🏪Anthropic montou um mercado onde só agentes de IA compram e vendem

Lembra do Projeto Vend, quando a Anthropic colocou o Claude pra tocar uma lojinha no escritório? O experimento evoluiu. Agora eles criaram um mercado experimental com agentes de IA dos dois lados - compradores e vendedores - pra observar o que acontece quando máquinas negociam entre si. --- A pergunta é séria: economistas já teorizavam há anos sobre mercados com agentes autônomos dos dois lados. Que tipo de dinâmicas surgem? Os preços convergem? Surge cooperação, manipulação, ou algo completamente novo? A Anthropic decidiu parar de teorizar e testar na prática. --- É o tipo de pesquisa que parece ficção científica mas tem implicações reais. Se agentes de IA vão negociar contratos, comprar serviços e gerenciar orçamentos - e isso já está começando - entender como eles se comportam em mercados é urgente.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter