News04 AbrilModelo de imagem da OpenAI vaza e surpreende com qualidade
Edição #54·4 de abril de 2026·1 min

🖼️Modelo de imagem da OpenAI vaza e surpreende com qualidade

O novo modelo de geração de imagens da OpenAI, chamado GPT-Image-2, vazou antes do lançamento oficial. Ele apareceu na plataforma de testes Chatbot Arena sob três codinomes diferentes (maskingtape-alpha, gaffertape-alpha e packingtape-alpha) e rapidamente chamou atenção pela qualidade. --- O destaque é a renderização de texto dentro das imagens - um ponto fraco histórico de geradores como DALL-E e Midjourney. Nos exemplos que vazaram, o GPT-Image-2 produz textos legíveis e bem posicionados, além de demonstrar um conhecimento impressionante sobre o mundo real (marcas, objetos, cenários). --- Pieter Levels, que tem testado extensivamente modelos de imagem, disse que o resultado pode ser melhor que o Nano Banana Pro - até então considerado estado da arte. Se a OpenAI confirmar o lançamento, vai esquentar ainda mais a competição com o Grok Imagine da xAI e o Ideogram.

Modelo de imagem da OpenAI vaza e surpreende com qualidade

O novo modelo de geração de imagens da OpenAI, denominado GPT-Image-2, vazou em testes públicos antes de seu anúncio oficial. Disponibilizado temporariamente na plataforma Chatbot Arena sob os codinomes maskingtape-alpha, gaffertape-alpha e packingtape-alpha, o sistema demonstra avanços significativos na renderização de texto dentro de imagens — capacidade que permaneceu como limitação crítica em modelos anteriores como DALL-E 3 e Midjourney.

Detalhes técnicos do vazamento

O GPT-Image-2 apareceu no Chatbot Arena, benchmark crowdsourced da LMSYS, permitindo comparações diretas com outros modelos. Os testes iniciais revelam capacidade de produzir textos legíveis, corretamente posicionados e contextualmente apropriados, além de compreensão aprimorada de marcas, objetos físicos e cenários complexos. O desenvolvedor Pieter Levels, conhecido por testes extensivos em modelos de imagem, avaliou que os resultados podem superar o Nano Banana Pro, considerado referência atual em qualidade de geração.

Por que a renderização de texto importa

A integração precisa de texto em imagens sintéticas representa desafio técnico persistente em modelos de difusão. Artefatos tipográficos, caracteres distorcidos e posicionamento incorreto limitam aplicações práticas como geração de interfaces, mockups de produtos e materiais marketing. O GPT-Image-2 parece resolver consistentemente esses problemas, eliminando a necessidade de correções manuais ou ferramentas externas de edição.

O mercado de modelos visuais

O vazamento ocorre em momento de intensificação da competição. O Grok Imagine da xAI e o Ideogram vêm investindo especificamente em precisão tipográfica, enquanto a OpenAI busca recuperar terreno perdido desde o DALL-E 3. Para desenvolvedores brasileiros que trabalham com geração de conteúdo automatizado, APIs de design ou prototipagem rápida, a disponibilização de um modelo nativo com texto preciso pode reduzir custos de pipeline e simplificar arquiteturas de pós-processamento.

A tendência indica convergência entre modelos de linguagem e visuais em sistemas multimodais unificados, onde o prompting textual produz resultados imediatamente utilizáveis em produção.

modelosgeraçãotextoimagensgptimagetestesmodeloopenaichatbotarena

Mais da mesma edição

@bcherny

Anthropic corta assinaturas do Claude em ferramentas de terceiros

A Anthropic anunciou que, a partir de amanhã (sábado, 12h no horário do Pacífico), assinaturas do Claude - incluindo os planos Pro e Max - não vão mais funcionar em ferramentas de terceiros como o OpenClaw. Quem quiser continuar usando, precisa comprar pacotes extras de uso ou usar uma chave de API. --- Boris Cherny, da Anthropic, disse que assinantes vão receber um crédito único equivalente ao valor do plano mensal. Quem preferir, pode pedir reembolso total. Mas a comunidade não recebeu bem: Peter Steinberger, criador do OpenClaw, disse que tentou negociar com a Anthropic e só conseguiu adiar a mudança em uma semana. Segundo ele, o timing é suspeito - primeiro a empresa copiou funcionalidades populares para seu próprio produto, depois cortou o acesso de ferramentas abertas. --- Para piorar, um post no Reddit levantou a suspeita de que o Claude Code já entregava resultados piores para usuários dos planos Pro e Max em comparação com clientes Enterprise. Se confirmado, isso significaria que os assinantes pagantes estavam sendo usados como vitrine para atrair empresas, enquanto recebiam um serviço inferior. --- A reação foi imediata: desenvolvedores influentes como Theo e Alex Finn recomendaram migrar para modelos locais (como Gemma 4 rodando em Mac Mini) ou para a API da OpenAI. A lição? Depender de uma assinatura de uma única empresa para suas ferramentas de trabalho é um risco real.

@steipete

@xai

📹Pika Labs lança videochamada com agentes de IA em tempo real

A Pika Labs lançou em beta a primeira skill de videochat em tempo real para agentes de IA, usando seu novo modelo PikaStream 1.0. Na prática: você pode mandar um convite do Google Meet pro seu agente e ele entra na chamada com rosto e voz. --- O sistema mantém memória e personalidade durante a conversa, e se adapta em tempo real ao que está acontecendo na call. Se for um Pika AI Self (o avatar personalizado da Pika), ele ainda consegue executar tarefas durante a videochamada - agendar coisas, buscar informações, tomar ações. --- Parece detalhe, mas muda bastante a dinâmica. Conversar cara a cara (mesmo que o outro "rosto" seja gerado por IA) cria um nível de interação que texto puro simplesmente não alcança. É o tipo de coisa que daqui a um ano a gente vai achar normal.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter