GPT 5.5 no Codex está fazendo gente mudar de opinião

O GPT 5.5 decepcionou nos benchmarks. Muita gente olhou os números e deu de ombros. Mas aí começaram a usar no Codex - a ferramenta de programação da OpenAI - e o burburinho mudou. Will Depue, pesquisador de IA, resumiu bem: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda." --- Não é só ele. Outros desenvolvedores descreveram a experiência como "genuinamente encantadora" - algo raro de se ouvir de quem mexe com código o dia inteiro. A sensação relatada é que o modelo entende a intenção por trás do pedido, não só as palavras. Em vez de ficar brigando com gargalos um atrás do outro, as sessões fluem. --- Peter Yang testou pedindo pro Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts, já tinha algo jogável na tela. A mensagem é clara: benchmark é uma coisa, uso real é outra. E no uso real, o 5.5 está ganhando fãs rápido.

O que aconteceu

O GPT 5.5 decepcionou nos benchmarks de avaliação tradicionais. Os números não impressionaram. Mas quando desenvolvedores começaram a usar o modelo no Codex — a ferramenta de programação da OpenAI — a narrativa mudou. A experiência prática tem gerado reações que vão além do usual ceticismo da comunidade de devs.

O desempenho nos testes tradicionais

Os benchmarks de IA medem capacidade em tarefas controladas: raciocínio, matemática, compreensão textual. Nessas métricas, o GPT 5.5 não superou expectativas. Muitos analistas rapidamente concluíram que o modelo representava um passo pequeno demais na evolução dos modelos de linguagem.

Essa avaliação, porém, ignora um aspecto fundamental: benchmarks não capturam a dinâmica de trabalho real com código.

A experiência no Codex

O Codex é a interface de programação da OpenAI, projetada para auxiliar na escrita, revisão e completion de código. Quando usuários avançados migraram para usar o GPT 5.5 nesse ambiente, o retorno foi consistente e positivo.

Will Depue, pesquisador de IA, resumiu a sensação: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda."

Desenvolvedores relatam que o modelo parece entender a intenção por trás do pedido, não apenas as palavras escritas. Em vez de gerar código que requer ajustes constantes, as sessões fluem com menos idas e vindas.

Peter Yang testou pedindo ao Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts iterativos, obteve um protótipo jogável. O exemplo ilustra como a capacidade de manter contexto e executar instruções compostas se manifesta na prática.

Por que isso importa para devs brasileiros

O mercado brasileiro de desenvolvimento tem adotado ferramentas de IA generativa de forma acelerada. A diferença entre um modelo que "funciona" e um que "funciona bem no dia a dia" impacta diretamente produtividade.

Para quem trabalha com projetos复杂度 — integrações, refatorações, código legado — a capacidade de manter coerência ao longo de sessões longas reduz o tempo spent em debugging de prompts e ajustes manuais.

Benchmarks continuarão sendo usados para comparar modelos. Mas a experiência dos primeiros usuários no Codex sugere que a métrica mais relevante para programadores pode ser outra: quantas vezes você precisa intervir para o modelo entregar o que você inúmera.

O que isso indica

A disparidade entre resultados em benchmarks e uso real não é novidade na indústria. O caso do GPT 5.5 no Codex reforça uma tendência: avaliação de modelo precisa ir além de testes controlados. Para programadores, a prova está na sessão de código, não na planilha de métricas.

🔥GPT 5.5 no Codex está fazendo gente mudar de opinião

O que aconteceu

O desempenho nos testes tradicionais

A experiência no Codex

Por que isso importa para devs brasileiros

O que isso indica

Mais da mesma edição

📋Notion reescreve seus valores para a era da IA

🗺️O novo fluxo dos devs: planejar como gente grande, codar com IA

🏪Anthropic montou um mercado onde só agentes de IA compram e vendem

Receba no seu email