🖼️Modelo de imagem da OpenAI vaza e surpreende com qualidade
O novo modelo de geração de imagens da OpenAI, chamado GPT-Image-2, vazou antes do lançamento oficial. Ele apareceu na plataforma de testes Chatbot Arena sob três codinomes diferentes (maskingtape-alpha, gaffertape-alpha e packingtape-alpha) e rapidamente chamou atenção pela qualidade. --- O destaque é a renderização de texto dentro das imagens - um ponto fraco histórico de geradores como DALL-E e Midjourney. Nos exemplos que vazaram, o GPT-Image-2 produz textos legíveis e bem posicionados, além de demonstrar um conhecimento impressionante sobre o mundo real (marcas, objetos, cenários). --- Pieter Levels, que tem testado extensivamente modelos de imagem, disse que o resultado pode ser melhor que o Nano Banana Pro - até então considerado estado da arte. Se a OpenAI confirmar o lançamento, vai esquentar ainda mais a competição com o Grok Imagine da xAI e o Ideogram.

Stupid simple, but most powerful Claude skill I run. Every Monday at 9am, Cowork scans my Linear, Notion, Slack, Gmail, and Cowork sessions to identify repeatable processes that should become skills. It allows me to proactively become more AI-native without making it my full-time job.
— @businessbarista View on X
O novo modelo de geração de imagens da OpenAI, denominado GPT-Image-2, vazou em testes públicos antes de seu anúncio oficial. Disponibilizado temporariamente na plataforma Chatbot Arena sob os codinomes maskingtape-alpha, gaffertape-alpha e packingtape-alpha, o sistema demonstra avanços significativos na renderização de texto dentro de imagens — capacidade que permaneceu como limitação crítica em modelos anteriores como DALL-E 3 e Midjourney.
Detalhes técnicos do vazamento
O GPT-Image-2 apareceu no Chatbot Arena, benchmark crowdsourced da LMSYS, permitindo comparações diretas com outros modelos. Os testes iniciais revelam capacidade de produzir textos legíveis, corretamente posicionados e contextualmente apropriados, além de compreensão aprimorada de marcas, objetos físicos e cenários complexos. O desenvolvedor Pieter Levels, conhecido por testes extensivos em modelos de imagem, avaliou que os resultados podem superar o Nano Banana Pro, considerado referência atual em qualidade de geração.
Por que a renderização de texto importa
A integração precisa de texto em imagens sintéticas representa desafio técnico persistente em modelos de difusão. Artefatos tipográficos, caracteres distorcidos e posicionamento incorreto limitam aplicações práticas como geração de interfaces, mockups de produtos e materiais marketing. O GPT-Image-2 parece resolver consistentemente esses problemas, eliminando a necessidade de correções manuais ou ferramentas externas de edição.
O mercado de modelos visuais
O vazamento ocorre em momento de intensificação da competição. O Grok Imagine da xAI e o Ideogram vêm investindo especificamente em precisão tipográfica, enquanto a OpenAI busca recuperar terreno perdido desde o DALL-E 3. Para desenvolvedores brasileiros que trabalham com geração de conteúdo automatizado, APIs de design ou prototipagem rápida, a disponibilização de um modelo nativo com texto preciso pode reduzir custos de pipeline e simplificar arquiteturas de pós-processamento.
A tendência indica convergência entre modelos de linguagem e visuais em sistemas multimodais unificados, onde o prompting textual produz resultados imediatamente utilizáveis em produção.
