Google cria modelo que gera texto a mais de mil tokens por segundo

⚡Google cria modelo que gera texto a mais de mil tokens por segundo

O Google lançou o DiffusionGemma, um modelo de IA que usa uma técnica diferente da tradicional para gerar texto. Em vez de produzir uma palavra de cada vez (como fazem o ChatGPT e o Claude), ele gera blocos de 256 tokens de uma vez, em paralelo. O resultado: mais de mil tokens por segundo, uma velocidade absurda comparada aos modelos atuais. --- Na prática, isso significa respostas quase instantâneas. O modelo é baseado no Gemma 4, tem 26 bilhões de parâmetros no total, mas usa apenas 3,8 bilhões durante o uso, o que o torna leve o suficiente para rodar em placas de vídeo com 18 GB de memória. E tem licença aberta (Apache 2.0), ou seja, qualquer pessoa pode usar e modificar. --- Se a abordagem de difusão para texto se provar tão boa quanto a tradicional em qualidade, pode mudar completamente a velocidade com que interagimos com modelos de IA. Ainda é cedo para cravar, mas o Google claramente está apostando que sim.

O Google lançou o DiffusionGemma, um modelo de IA que usa uma técnica diferente da tradicional para gerar texto. Em vez de produzir uma palavra de cada vez (como fazem o ChatGPT e o Claude), ele gera blocos de 256 tokens de uma vez, em paralelo. O resultado: mais de mil tokens por segundo, uma velocidade absurda comparada aos modelos atuais.
— @_philschmid View on X

O que mudou

O Google apresentou o DiffusionGemma, modelo de IA que gera mais de mil tokens por segundo usando uma abordagem por difusão em vez da geração token a token tradicional. A velocidade representa uma mudança significativa no paradigma atual de modelos de linguagem.

Como funciona

A maioria dos modelos de linguagem atuais, incluindo ChatGPT e Claude, produz texto de forma sequencial — cada palavra depende da anterior. O DiffusionGemma inverte esse processo: gera blocos de 256 tokens simultaneamente, em paralelo, usando uma técnica inspirada nos modelos de difusão utilizados em geração de imagem.

O modelo é baseado no Gemma 4 e possui 26 bilhões de parâmetros no total. Durante a inferência, no entanto, utiliza apenas 3,8 bilhões de parâmetros ativos, o que permite execução em GPUs com 18 GB de memória VRAM — hardware acessível para muitos desenvolvedores individuais e pequenas equipes.

Licença aberta e acessibilidade

O DiffusionGemma foi liberado sob licença Apache 2.0, permitindo uso comercial, modificação e distribuição sem royalties. Essa escolha posiciona o modelo como alternativa viável para quem precisa implementar IA generativa em ambientes com restrições de custos de API ou requisitos de privacidade que impedem envio de dados a serviços externos.

A combinação de alta velocidade de geração com requisitos moderados de hardware pode viabilizar aplicações que antes dependiam de servidores potentes ou APIs pagas.

Implicações para desenvolvedores brasileiros

Para builders e devs no Brasil, o modelo abre possibilidades em cenários específicos:

Aplicações que exigem respostas em tempo real, como chatbots de suporte ao cliente ou assistentes de código
Ambientes edge computing onde a inferência precisa ocorrer localmente
Prototipagem rápida sem custo de API
Projetos com requisitos de soberania de dados

A arquitetura por difusão ainda está em fase初期 de validação. O desempenho em tarefas complexas de raciocínio ou geração de código longo precisa ser testado amplamente. Ainda assim, a aposta clara do Google nessa direção indica que a abordagem pode se consolidar nos próximos anos.

O que observar

O DiffusionGemma representa um ponto de inflexão potencial na evolução de modelos de linguagem. Se a qualidade da geração por difusão se mostrar equivalente à geração tradicional, a indústria pode migrar para arquiteturas que priorizam paralelismo e velocidade. O momento atual é de experimentação — devs interessados devem testar o modelo em seus casos de uso específicos e monitorar avanços subsequentes da pesquisa.

geraçãomodelodiffusiongemmadifusãomodelosvelocidadelinguagemprecisarequisitospode

⚡Google cria modelo que gera texto a mais de mil tokens por segundo

O que mudou

Como funciona

Licença aberta e acessibilidade

Implicações para desenvolvedores brasileiros

O que observar

Mais da mesma edição

🏦Bancos recusam SoftBank: não acreditam que OpenAI vale US$ 852 bilhões

🔄Sam Altman diz que auto-melhoria recursiva pode chegar em menos de seis meses

🔙Anthropic recua e pede desculpas por sabotar pesquisadores concorrentes

Receba no seu email