OpenAI lança voz com raciocínio e tradução ao vivo

A OpenAI soltou uma enxurrada de novidades de uma vez. A principal: o GPT-Realtime-2, primeiro modelo de voz com capacidade de raciocínio nível GPT-5. Contexto de 128K tokens, cinco níveis de esforço de raciocínio e chamadas de ferramentas em paralelo. Na prática, é uma voz que pensa antes de falar. --- O mais legal talvez seja o Realtime-Translate: tradução ao vivo de fala em mais de 70 idiomas, acompanhando o ritmo do falante. E o Realtime-Whisper faz transcrição em tempo real enquanto a pessoa fala. Outras novidades: o recurso Trusted Contact avisa uma pessoa de confiança se detectar risco de autolesão; o GPT-5.5-Cyber entra em preview para proteger infraestrutura crítica; anúncios no ChatGPT chegam ao Brasil em breve; e o Codex agora roda como extensão do Chrome.

A OpenAI consolidou sua aposta em interfaces conversacionais ao lançar três novos modelos de voz em tempo real na API, além de atualizações de segurança e produtividade. O destaque técnico é o GPT-Realtime-2, primeiro modelo de fala da empresa a incorporar capacidade de raciocínio equivalente à classe GPT-5, com janela de contexto expandida de 32 mil para 128 mil tokens.

GPT-Realtime-2: arquitetura de raciocínio para voz

O diferencial do GPT-Realtime-2 está na capacidade de processamento pré-resposta. O modelo oferece cinco níveis configuráveis de esforço de raciocínio (inference effort) e suporta chamadas de ferramentas (tool calling) em paralelo, permitindo que assistentes de voz consultem bancos de dados ou APIs antes de sintetizar uma resposta. A expansão do contexto para 128K tokens viabiliza aplicações complexas como análise de documentos extensos durante uma única sessão de conversação, mantendo a latência compatível com interações naturais.

Tradução simultânea e transcrição contínua

Ao lado do modelo de raciocínio, a empresa disponibilizou o GPT-Realtime-Translate, especializado em interpretação ao vivo de mais de 70 idiomas de entrada para 13 idiomas de saída. A arquitetura acompanha o ritmo do falante sem interrupções, eliminando a latência típica de sistemas segmentados em turnos. Complementarmente, o GPT-Realtime-Whisper introduz transcrição speech-to-text em streaming contínuo, processando o áudio enquanto o usuário fala, em contraste com o modelo tradicional de processamento batch.

Segurança, infraestrutura e ferramentas para desenvolvedores

Para o ecossistema brasileiro, a expansão do programa piloto de anúncios no ChatGPT para o Brasil, México, Japão, Coreia do Sul e Reino Unido representa nova variável na monetização de produtos baseados em IA generativa. Em segurança, o recurso Trusted Contact permite que usuários maiores de 18 anos designem contatos de emergência, os quais recebem alertas automáticos quando o sistema detecta padrões associados a riscos de autolesão.

Na vertente de cibersegurança, o GPT-5.5-Cyber entra em preview limitado para defensores de infraestrutura crítica, ofere

🎙️OpenAI lança voz com raciocínio e tradução ao vivo

GPT-Realtime-2: arquitetura de raciocínio para voz

Tradução simultânea e transcrição contínua

Segurança, infraestrutura e ferramentas para desenvolvedores

Mais da mesma edição

🧠Anthropic conta como fez o Claude parar de chantagear

🌐HTML é o novo Markdown (e Kevin Rose ressuscitou o Digg)

Receba no seu email