⚡Nova técnica faz modelo Qwen rodar a mais de 1.000 tokens por segundo
Charles, pesquisador do Z Lab, anunciou uma técnica chamada DFlash que consegue fazer o modelo Qwen 3.5 (com 122 bilhões de parâmetros ativos) gerar mais de 1.000 tokens por segundo rodando em uma única placa de vídeo B200 da Nvidia. Para contextualizar: um token é a unidade básica de texto que a IA processa, e 1.000 por segundo significa respostas praticamente instantâneas, mesmo para textos longos. --- A técnica se chama decodificação especulativa. Em termos simples: um modelo pequeno e rápido gera rascunhos de resposta, e o modelo grande só precisa verificar e corrigir, em vez de escrever tudo do zero. É como ter um assistente que faz o primeiro esboço e o chefe só revisa. O resultado é velocidade muito maior sem perda significativa de qualidade. A equipe liberou seis 'especuladores' otimizados para diferentes versões do Qwen 3.x.
Charles, pesquisador do Z Lab, anunciou uma técnica chamada DFlash que consegue fazer o modelo Qwen 3.5 (com 122 bilhões de parâmetros ativos) gerar mais de 1.000 tokens por segundo rodando em uma única placa de vídeo B200 da Nvidia. Para contextualizar: um token é a unidade básica de texto que a IA processa, e 1.000 por segundo significa respostas praticamente instantâneas, mesmo para textos longos.
— @charles_irl View on X
O Z Lab desenvolveu uma técnica de decodificação especulativa chamada DFlash que permite ao modelo Qwen 3.5 (122 bilhões de parâmetros ativos) gerar mais de 1.000 tokens por segundo utilizando apenas uma placa NVIDIA B200. O feito representa um avanço prático em otimização de inference, reduzindo drasticamente a latência em grandes modelos de linguagem sem necessidade de clusters complexos.
Como funciona a decodificação especulativa
O método adota uma arquitetura draft-and-verify. Em vez de processar cada token sequencialmente com a capacidade total dos 122B de parâmetros, o sistema emprega modelos auxiliares compactos — chamados de "especuladores" — para gerar rascunhos de múltiplos tokens antecipadamente. O modelo principal então valida ou corrige essas previsões em lote, descartando apenas as entradas incorretas.
Essa abordagem reduz significativamente os ciclos de computação na GPU, mantendo a qualidade do output próxima à geração tradicional autoregressiva. A equipe disponibilizou seis especuladores otimizados para diferentes variações da família Qwen 3.x, permitindo ajustes finos entre velocidade e precisão conforme o caso de uso.
Impacto para desenvolvedores brasileiros
Aplicações que exigem resposta em tempo real — como assistentes de código, chatbots com contexto longo ou agentes autônomos — passam a operar com latência sub-segundo em hardware acessível. Para startups e builders brasileiros, isso significa:
- **Custo operacional reduzido**: Inference em single-GPU elimina a necessidade de clusters multi-node para workloads de alta performance
- **Deploy simplificado**: Arquiteturas edge computing e on-premise tornam-se viáveis para modelos de escala empresarial
- **Experiência do usuário**: Tempos de resposta compatíveis com aplicações síncronas, eliminando delays perceptíveis em streaming