🎙️OpenAI lança voz com raciocínio e tradução ao vivo
A OpenAI soltou uma enxurrada de novidades de uma vez. A principal: o GPT-Realtime-2, primeiro modelo de voz com capacidade de raciocínio nível GPT-5. Contexto de 128K tokens, cinco níveis de esforço de raciocínio e chamadas de ferramentas em paralelo. Na prática, é uma voz que pensa antes de falar. --- O mais legal talvez seja o Realtime-Translate: tradução ao vivo de fala em mais de 70 idiomas, acompanhando o ritmo do falante. E o Realtime-Whisper faz transcrição em tempo real enquanto a pessoa fala. Outras novidades: o recurso Trusted Contact avisa uma pessoa de confiança se detectar risco de autolesão; o GPT-5.5-Cyber entra em preview para proteger infraestrutura crítica; anúncios no ChatGPT chegam ao Brasil em breve; e o Codex agora roda como extensão do Chrome.

OpenAI released three new realtime voice models in the API, the Trusted Contact safety feature in ChatGPT, GPT-5.5-Cyber for defenders, an ads pilot update, and a Codex Chrome extension. GPT-Realtime-2 launched as the first voice model with GPT-5-class reasoning, context bumped from 32K to 128K. GPT-Realtime-Translate is a new live translation model for 70+ input languages into 13 output languages. GPT-Realtime-Whisper is a new streaming speech-to-text model. Trusted Contact is rolling out as an optional safety feature for adults 18+. GPT-5.5-Cyber is in limited preview for defenders of critical infrastructure. Ads pilot expanding to UK, Mexico, Brazil, Japan, South Korea. Codex now works directly in Chrome on macOS and Windows via extension.
— @btibor91 View on X
A OpenAI consolidou sua aposta em interfaces conversacionais ao lançar três novos modelos de voz em tempo real na API, além de atualizações de segurança e produtividade. O destaque técnico é o GPT-Realtime-2, primeiro modelo de fala da empresa a incorporar capacidade de raciocínio equivalente à classe GPT-5, com janela de contexto expandida de 32 mil para 128 mil tokens.
GPT-Realtime-2: arquitetura de raciocínio para voz
O diferencial do GPT-Realtime-2 está na capacidade de processamento pré-resposta. O modelo oferece cinco níveis configuráveis de esforço de raciocínio (inference effort) e suporta chamadas de ferramentas (tool calling) em paralelo, permitindo que assistentes de voz consultem bancos de dados ou APIs antes de sintetizar uma resposta. A expansão do contexto para 128K tokens viabiliza aplicações complexas como análise de documentos extensos durante uma única sessão de conversação, mantendo a latência compatível com interações naturais.
Tradução simultânea e transcrição contínua
Ao lado do modelo de raciocínio, a empresa disponibilizou o GPT-Realtime-Translate, especializado em interpretação ao vivo de mais de 70 idiomas de entrada para 13 idiomas de saída. A arquitetura acompanha o ritmo do falante sem interrupções, eliminando a latência típica de sistemas segmentados em turnos. Complementarmente, o GPT-Realtime-Whisper introduz transcrição speech-to-text em streaming contínuo, processando o áudio enquanto o usuário fala, em contraste com o modelo tradicional de processamento batch.
Segurança, infraestrutura e ferramentas para desenvolvedores
Para o ecossistema brasileiro, a expansão do programa piloto de anúncios no ChatGPT para o Brasil, México, Japão, Coreia do Sul e Reino Unido representa nova variável na monetização de produtos baseados em IA generativa. Em segurança, o recurso Trusted Contact permite que usuários maiores de 18 anos designem contatos de emergência, os quais recebem alertas automáticos quando o sistema detecta padrões associados a riscos de autolesão.
Na vertente de cibersegurança, o GPT-5.5-Cyber entra em preview limitado para defensores de infraestrutura crítica, ofere
