🔥GPT 5.5 no Codex está fazendo gente mudar de opinião
O GPT 5.5 decepcionou nos benchmarks. Muita gente olhou os números e deu de ombros. Mas aí começaram a usar no Codex - a ferramenta de programação da OpenAI - e o burburinho mudou. Will Depue, pesquisador de IA, resumiu bem: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda." --- Não é só ele. Outros desenvolvedores descreveram a experiência como "genuinamente encantadora" - algo raro de se ouvir de quem mexe com código o dia inteiro. A sensação relatada é que o modelo entende a intenção por trás do pedido, não só as palavras. Em vez de ficar brigando com gargalos um atrás do outro, as sessões fluem. --- Peter Yang testou pedindo pro Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts, já tinha algo jogável na tela. A mensagem é clara: benchmark é uma coisa, uso real é outra. E no uso real, o 5.5 está ganhando fãs rápido.
going to be honest was somewhat disappointed by gpt 5.5 evals but holy shit this thing rips in codex extremely noticeable if you're working on a complex & highly technical project
— @willdepue View on X
O que aconteceu
O GPT 5.5 decepcionou nos benchmarks de avaliação tradicionais. Os números não impressionaram. Mas quando desenvolvedores começaram a usar o modelo no Codex — a ferramenta de programação da OpenAI — a narrativa mudou. A experiência prática tem gerado reações que vão além do usual ceticismo da comunidade de devs.
O desempenho nos testes tradicionais
Os benchmarks de IA medem capacidade em tarefas controladas: raciocínio, matemática, compreensão textual. Nessas métricas, o GPT 5.5 não superou expectativas. Muitos analistas rapidamente concluíram que o modelo representava um passo pequeno demais na evolução dos modelos de linguagem.
Essa avaliação, porém, ignora um aspecto fundamental: benchmarks não capturam a dinâmica de trabalho real com código.
A experiência no Codex
O Codex é a interface de programação da OpenAI, projetada para auxiliar na escrita, revisão e completion de código. Quando usuários avançados migraram para usar o GPT 5.5 nesse ambiente, o retorno foi consistente e positivo.
Will Depue, pesquisador de IA, resumiu a sensação: "Os benchmarks me decepcionaram, mas no Codex essa coisa voa. Em projetos complexos e técnicos, a diferença é absurda."
Desenvolvedores relatam que o modelo parece entender a intenção por trás do pedido, não apenas as palavras escritas. Em vez de gerar código que requer ajustes constantes, as sessões fluem com menos idas e vindas.
Peter Yang testou pedindo ao Codex construir uma réplica do jogo Star Fox. Em 15 minutos de prompts iterativos, obteve um protótipo jogável. O exemplo ilustra como a capacidade de manter contexto e executar instruções compostas se manifesta na prática.
Por que isso importa para devs brasileiros
O mercado brasileiro de desenvolvimento tem adotado ferramentas de IA generativa de forma acelerada. A diferença entre um modelo que "funciona" e um que "funciona bem no dia a dia" impacta diretamente produtividade.
Para quem trabalha com projetos复杂度 — integrações, refatorações, código legado — a capacidade de manter coerência ao longo de sessões longas reduz o tempo spent em debugging de prompts e ajustes manuais.
Benchmarks continuarão sendo usados para comparar modelos. Mas a experiência dos primeiros usuários no Codex sugere que a métrica mais relevante para programadores pode ser outra: quantas vezes você precisa intervir para o modelo entregar o que você inúmera.
O que isso indica
A disparidade entre resultados em benchmarks e uso real não é novidade na indústria. O caso do GPT 5.5 no Codex reforça uma tendência: avaliação de modelo precisa ir além de testes controlados. Para programadores, a prova está na sessão de código, não na planilha de métricas.