News16 AbrilText-to-speech do Google agora aceita direcao de cena
Edição #66·16 de abril de 2026·1 min

🎙️Text-to-speech do Google agora aceita direcao de cena

O Google DeepMind apresentou o Gemini 3.1 Flash TTS, um modelo de texto para voz que aceita comandos de estilo direto no texto. Voce escreve algo como "fale isso com entusiasmo" ou "pausa aqui" e o modelo obedece. --- Parece simples, mas muda o jogo. Ate agora, controlar a entonacao de uma voz sintetica era um trabalho de ajuste fino, quase artesanal. Agora e so escrever um roteiro com instrucoes e a voz segue. Funciona em mais de 70 idiomas, com marca d'agua digital (SynthID) em tudo que gera. --- Me impressionou o quanto isso abre de possibilidade pra quem cria conteudo, podcasts ou audiobooks. Concorrentes como ElevenLabs e OpenAI ja estao de olho - e o preco, segundo relatos, esta agressivo.

Text-to-speech do Google agora aceita direcao de cena

O Google DeepMind lançou o Gemini 3.1 Flash TTS, modelo de text-to-speech que permite controlar entonação, ritmo e estilo vocal diretamente no corpo do texto, eliminando a necessidade de ajustes técnicos complexos em APIs de áudio. A novidade representa uma mudança de paradigma na síntese de voz: em vez de manipular parâmetros abstratos de prosódia, desenvolvedores e criadores de conteúdo agora inserem comandos em linguagem natural — como "fale com entusiasmo" ou "pausa aqui" — diretamente no roteiro.

Do ajuste fino à direção por texto

Até recentemente, controlar a entrega de uma voz sintética exigia conhecimento de SSML (Speech Synthesis Markup Language) ou ajustes granulares em atributos como pitch, rate e volume. O Gemini 3.1 Flash TTS introduz Audio Tags, marcadores inline que interpretam instruções de performance como se fossem direções de teatro. Isso reduz a curva de aprendizado para implementar narrativas dinâmicas em assistentes virtuais, sistemas IVR e plataformas de audiobooks.

O modelo suporta mais de 70 idiomas — incluindo português brasileiro — e aplica automaticamente a marca d'água digital SynthID em todo conteúdo gerado, facilitando a identificação de áudio sintético em cenários de desinformação ou deepfake.

Oportunidades para o ecossistema brasileiro

Para desenvolvedores e builders no Brasil, a ferramenta abre caminhos específicos:

  • **Localização em escala**: Produção de conteúdo multimídia com voz natural em pt-BR sem depender de estúdios de dublagem tradicionais;
  • **Acessibilidade**: Geração dinâmica de narração para documentação técnica e interfaces de voz, com controle contextual de ênfase;
  • **Pod
vozconteúdogeminiflashttsmodelocontrolardiretamentetextoajustes

Mais da mesma edição

@sundarpichai

💻Gemini chega ao Mac como app nativo

O Google lancou o Gemini como aplicativo nativo para Mac. E o detalhe mais interessante nem e o app em si - e como ele foi feito. --- Sundar Pichai, CEO do Google, contou que o time construiu o app junto com o Antigravity (laboratorio interno do Google) e foi de ideia a prototipo funcional em Swift em poucos dias. Poucos dias. Um app nativo, bonito, rodando no desktop. --- E a primeira vez que o Gemini sai do navegador e vira app de verdade no computador. Ate agora, quem queria Gemini no desktop precisava abrir o Chrome. Agora e so abrir o app e conversar. Mais funcionalidades estao a caminho, segundo Pichai.

@AndrewYNg

📋Andrew Ng quer acabar com o "vibe coding"

Andrew Ng, cofundador da Coursera e um dos nomes mais respeitados em IA, lancou um curso gratuito sobre algo que ele chama de "desenvolvimento guiado por especificacao" - basicamente, o oposto do vibe coding. --- O problema que ele ataca e real: voce pede pra IA escrever codigo e ela escreve... so que nao exatamente o que voce queria. A proposta e simples - antes de codar, escreva um documento detalhado dizendo o que quer construir, a stack, o roadmap. Depois use esse documento como guia pro agente de codigo. --- O curso ensina a fazer isso em loops iterativos, e funciona tanto pra projetos novos quanto pra codigo legado. O mais legal: no final, voce empacota seu workflow numa "skill" portavel que funciona em qualquer agente e IDE. Feito em parceria com a JetBrains.

@snsf

🔧OpenAI abre o motor dos agentes estilo Codex

A OpenAI lancou uma grande atualizacao do Agents SDK, o kit de ferramentas pra quem quer construir agentes de IA que rodam por longos periodos sem cair. --- A ideia e que qualquer desenvolvedor consiga montar agentes no estilo do Codex - aqueles que leem arquivos, usam o computador, guardam memoria e se compactam sozinhos quando o contexto fica grande. O mais legal: agora o "cerebro" e o "corpo" estao separados. Voce pode rodar o agente no seu proprio servidor ou usar parceiros como Cloudflare, Vercel e E2B pra execucao em containers. --- Tudo e open-source. Da pra inspecionar, customizar e usar do seu jeito. Pra quem quer construir produtos com IA que realmente funcionam em producao, isso e uma peça que faltava.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter