⚡Google cria modelo que gera texto a mais de mil tokens por segundo
O Google lançou o DiffusionGemma, um modelo de IA que usa uma técnica diferente da tradicional para gerar texto. Em vez de produzir uma palavra de cada vez (como fazem o ChatGPT e o Claude), ele gera blocos de 256 tokens de uma vez, em paralelo. O resultado: mais de mil tokens por segundo, uma velocidade absurda comparada aos modelos atuais. --- Na prática, isso significa respostas quase instantâneas. O modelo é baseado no Gemma 4, tem 26 bilhões de parâmetros no total, mas usa apenas 3,8 bilhões durante o uso, o que o torna leve o suficiente para rodar em placas de vídeo com 18 GB de memória. E tem licença aberta (Apache 2.0), ou seja, qualquer pessoa pode usar e modificar. --- Se a abordagem de difusão para texto se provar tão boa quanto a tradicional em qualidade, pode mudar completamente a velocidade com que interagimos com modelos de IA. Ainda é cedo para cravar, mas o Google claramente está apostando que sim.
O Google lançou o DiffusionGemma, um modelo de IA que usa uma técnica diferente da tradicional para gerar texto. Em vez de produzir uma palavra de cada vez (como fazem o ChatGPT e o Claude), ele gera blocos de 256 tokens de uma vez, em paralelo. O resultado: mais de mil tokens por segundo, uma velocidade absurda comparada aos modelos atuais.
— @_philschmid View on X
O que mudou
O Google apresentou o DiffusionGemma, modelo de IA que gera mais de mil tokens por segundo usando uma abordagem por difusão em vez da geração token a token tradicional. A velocidade representa uma mudança significativa no paradigma atual de modelos de linguagem.
Como funciona
A maioria dos modelos de linguagem atuais, incluindo ChatGPT e Claude, produz texto de forma sequencial — cada palavra depende da anterior. O DiffusionGemma inverte esse processo: gera blocos de 256 tokens simultaneamente, em paralelo, usando uma técnica inspirada nos modelos de difusão utilizados em geração de imagem.
O modelo é baseado no Gemma 4 e possui 26 bilhões de parâmetros no total. Durante a inferência, no entanto, utiliza apenas 3,8 bilhões de parâmetros ativos, o que permite execução em GPUs com 18 GB de memória VRAM — hardware acessível para muitos desenvolvedores individuais e pequenas equipes.
Licença aberta e acessibilidade
O DiffusionGemma foi liberado sob licença Apache 2.0, permitindo uso comercial, modificação e distribuição sem royalties. Essa escolha posiciona o modelo como alternativa viável para quem precisa implementar IA generativa em ambientes com restrições de custos de API ou requisitos de privacidade que impedem envio de dados a serviços externos.
A combinação de alta velocidade de geração com requisitos moderados de hardware pode viabilizar aplicações que antes dependiam de servidores potentes ou APIs pagas.
Implicações para desenvolvedores brasileiros
Para builders e devs no Brasil, o modelo abre possibilidades em cenários específicos:
- Aplicações que exigem respostas em tempo real, como chatbots de suporte ao cliente ou assistentes de código
- Ambientes edge computing onde a inferência precisa ocorrer localmente
- Prototipagem rápida sem custo de API
- Projetos com requisitos de soberania de dados
A arquitetura por difusão ainda está em fase初期 de validação. O desempenho em tarefas complexas de raciocínio ou geração de código longo precisa ser testado amplamente. Ainda assim, a aposta clara do Google nessa direção indica que a abordagem pode se consolidar nos próximos anos.
O que observar
O DiffusionGemma representa um ponto de inflexão potencial na evolução de modelos de linguagem. Se a qualidade da geração por difusão se mostrar equivalente à geração tradicional, a indústria pode migrar para arquiteturas que priorizam paralelismo e velocidade. O momento atual é de experimentação — devs interessados devem testar o modelo em seus casos de uso específicos e monitorar avanços subsequentes da pesquisa.