News25 JunhoIA chinesa GLM-5.2 empata com GPT-5.5 em teste de raciocínio
Edição #134·25 de junho de 2026·2 min

🧠IA chinesa GLM-5.2 empata com GPT-5.5 em teste de raciocínio

O ARC Prize, benchmark (teste padronizado) que mede a capacidade de raciocínio das IAs, publicou os resultados do GLM-5.2, modelo da empresa chinesa Zhipu AI. No teste mais difícil, o ARC-AGI-2, ele marcou 22,8%, desempenho comparável ao do GPT-5.4 e GPT-5.5 quando usados em modo de raciocínio leve. --- Para quem acompanha a corrida entre EUA e China em IA, esse dado é significativo. A Zhipu ainda não tem a mesma fama do Google ou da OpenAI, mas está entregando resultados no mesmo patamar em testes independentes, e gastando apenas 25 centavos de dólar por rodada de avaliação. Eficiência importa tanto quanto potência bruta. --- Vale lembrar que 22,8% no ARC-AGI-2 mostra que nenhuma IA atual é realmente boa em raciocínio geral. O teste foi projetado justamente para ser difícil, e os números deixam claro: estamos longe de uma inteligência artificial que "pensa" como humano.

IA chinesa GLM-5.2 empata com GPT-5.5 em teste de raciocínio

Desempenho do GLM-5.2 no ARC-AGI-2

O modelo GLM-5.2, desenvolvido pela empresa chinesa Zhipu AI, alcançou 22,8% no teste ARC-AGI-2, um dos benchmarks mais difíceis para avaliar raciocínio em inteligência artificial. Esse resultado coloca o desempenho do modelo em pé de igualdade com o GPT-5.4 e GPT-5.5 da OpenAI quando utilizados em modo de raciocínio leve.

O que é o ARC Prize

O ARC Prize é um benchmark padronizado criado especificamente para medir a capacidade de raciocínio geral das IAs. Diferente de testes tradicionais que avaliam apenas memória ou reconhecimento de padrões, o ARC-AGI-2 foi projetado para ser extremamente difícil e exigir思考 abstrata genuína. A pontuação de 22,8% atingida pelo GLM-5.2 revela uma limitação importante: nenhuma IA atual demonstraraciocínio comparável ao humano em tarefas generalizeis.

A ascensão da Zhipu AI

A Zhipu AI é uma startup chinesa que, apesar de não ter a mesma visibilidade internacional que OpenAI ou Google, está entregando resultados competitivos. O diferencial apontado no公报 do ARC Prize é o custo: apenas 0,25 dólares por rodada de avaliação. Esse valor representa uma eficiência operacional significativamente superior aos concorrentes ocidentais, onde o custo por推理 em modelos de última geração pode ser substancialmente mais alto.

Para o mercado de IA, isso indica que a competição entre EUA e China não se resume apenas a potência bruta de processamento, mas também a otimização de recursos e redução de custos.

Implicações para developers e builders brasileiros

Para quem desenvolve soluções de IA no Brasil, esse cenário traz algumas reflexões importantes:

  • **Diversificação de provedores**: modelos chineses como o GLM-5.2 podem se tornar alternativas viáveis para aplicações que exigem raciocínio, especialmente em projetos com restrições orçamentárias.
  • **Benchmark como referência**: o ARC Prize oferece uma métrica confiável para avaliar capacidades de raciocínio, permitindo comparação objetiva entre diferentes modelos antes da implementação.
  • **Expectativas realistas**: a pontuação de 22,8% confirma que ainda estamos distantes de IAs com raciocínio genuinamente humano. Desenvolvedores devem planejar sistemas que complementem as limitações atuais dos modelos, não que dependam de reasoning perfeita.

O mercado brasileiro de tech deve acompanhar de perto a evolução desses modelos, especialmente à medida que opções mais acessíveis e competitivas surgem no ecossistema global de IA.

raciocíniomodelosglmarcprizearcagizhipuesseapenasnão

Mais da mesma edição

@OpenAI

🌶️OpenAI anuncia seu primeiro chip próprio: o Jalapeño

A OpenAI largou a notícia do dia: projetou e construiu seu primeiro chip de inteligência artificial, batizado de Jalapeño. O chip foi feito em parceria com a Broadcom, gigante americana de semicondutores, e é otimizado especificamente para rodar os modelos que alimentam o ChatGPT, o Codex e os futuros produtos da empresa. --- A jogada é estratégica. Hoje, praticamente toda empresa de IA depende dos chips da NVIDIA, o que significa filas, preços salgados e pouca autonomia. Ao desenvolver silício próprio, a OpenAI quer controlar a cadeia inteira: do produto que você usa até a infraestrutura que o faz funcionar. É o mesmo caminho que a Apple trilhou com seus chips M1 e M2, só que no mundo da IA. --- Isso não significa que a OpenAI vai parar de comprar GPUs da NVIDIA amanhã. Mas ter um chip customizado para seus modelos pode reduzir custos e, em tese, permitir que ela atenda mais gente sem precisar repassar a conta. Se funcionar bem, a NVIDIA perde um pouco do seu reinado absoluto.

@ChatGPTapp

GPT-5.5 Instant começa a chegar para todo mundo

Enquanto a galera ainda tentava entender o que era aquele GPT-5.6 que apareceu ontem, a OpenAI soltou o GPT-5.5 Instant para o público. A empresa descreveu o modelo como "muito inteligente, muito intuitivo e muito divertido de conversar". Modesto, né? --- O lançamento está sendo gradual: primeiro para assinantes Pro, depois Plus, e amanhã para usuários do plano gratuito. O nome "Instant" sugere que o foco está na velocidade de resposta, não necessariamente na capacidade bruta de raciocínio. Pense nele como o modelo para o dia a dia, aquele que responde rápido sem precisar pensar por 30 segundos. --- Dois modelos novos em dois dias dá a impressão de que a OpenAI está acelerando o passo. Com a concorrência do Gemini e do Claude apertando, faz sentido: quem ficar parado vira notícia velha.

@_philschmid

🖥️Gemini 3.5 Flash agora controla seu computador e celular

O Google ativou o recurso de "uso do computador" no Gemini 3.5 Flash. Na prática, você dá à IA acesso a uma tela (pode ser navegador, celular ou desktop) e um objetivo, e ela descobre sozinha quais cliques, toques e digitações são necessários para realizar a tarefa. --- Philipp Schmid, do time do Google, contou que usou o recurso para auditar páginas de documentação: mandou a IA abrir a URL, rodar os trechos de código e reportar os problemas encontrados. O sistema vem com travas de segurança embutidas, como confirmação do usuário antes de ações sensíveis e bloqueio automático contra tentativas de manipulação por sites maliciosos. --- A corrida do "agente que usa o computador por você" está cada vez mais quente. Anthropic lançou algo parecido com o Claude, e agora o Google responde com a vantagem de já ter o recurso integrado direto no modelo principal, sem precisar de ferramenta separada.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter