News20 JunhoNova técnica faz modelo Qwen rodar a mais de 1.000 tokens por segundo
Edição #129·20 de junho de 2026·1 min

Nova técnica faz modelo Qwen rodar a mais de 1.000 tokens por segundo

Charles, pesquisador do Z Lab, anunciou uma técnica chamada DFlash que consegue fazer o modelo Qwen 3.5 (com 122 bilhões de parâmetros ativos) gerar mais de 1.000 tokens por segundo rodando em uma única placa de vídeo B200 da Nvidia. Para contextualizar: um token é a unidade básica de texto que a IA processa, e 1.000 por segundo significa respostas praticamente instantâneas, mesmo para textos longos. --- A técnica se chama decodificação especulativa. Em termos simples: um modelo pequeno e rápido gera rascunhos de resposta, e o modelo grande só precisa verificar e corrigir, em vez de escrever tudo do zero. É como ter um assistente que faz o primeiro esboço e o chefe só revisa. O resultado é velocidade muito maior sem perda significativa de qualidade. A equipe liberou seis 'especuladores' otimizados para diferentes versões do Qwen 3.x.

O Z Lab desenvolveu uma técnica de decodificação especulativa chamada DFlash que permite ao modelo Qwen 3.5 (122 bilhões de parâmetros ativos) gerar mais de 1.000 tokens por segundo utilizando apenas uma placa NVIDIA B200. O feito representa um avanço prático em otimização de inference, reduzindo drasticamente a latência em grandes modelos de linguagem sem necessidade de clusters complexos.

Como funciona a decodificação especulativa

O método adota uma arquitetura draft-and-verify. Em vez de processar cada token sequencialmente com a capacidade total dos 122B de parâmetros, o sistema emprega modelos auxiliares compactos — chamados de "especuladores" — para gerar rascunhos de múltiplos tokens antecipadamente. O modelo principal então valida ou corrige essas previsões em lote, descartando apenas as entradas incorretas.

Essa abordagem reduz significativamente os ciclos de computação na GPU, mantendo a qualidade do output próxima à geração tradicional autoregressiva. A equipe disponibilizou seis especuladores otimizados para diferentes variações da família Qwen 3.x, permitindo ajustes finos entre velocidade e precisão conforme o caso de uso.

Impacto para desenvolvedores brasileiros

Aplicações que exigem resposta em tempo real — como assistentes de código, chatbots com contexto longo ou agentes autônomos — passam a operar com latência sub-segundo em hardware acessível. Para startups e builders brasileiros, isso significa:

  • **Custo operacional reduzido**: Inference em single-GPU elimina a necessidade de clusters multi-node para workloads de alta performance
  • **Deploy simplificado**: Arquiteturas edge computing e on-premise tornam-se viáveis para modelos de escala empresarial
  • **Experiência do usuário**: Tempos de resposta compatíveis com aplicações síncronas, eliminando delays perceptíveis em streaming
modelosdecodificaçãoespeculativamodeloqwenparâmetrosgerartokensapenasinference

Mais da mesma edição

@AndrewYNg

⚠️Andrew Ng: Anthropic usou 'segurança' para frear rivais e acendeu crise global

Andrew Ng, um dos nomes mais respeitados da inteligência artificial, publicou um texto duro contra a Anthropic e o governo dos Estados Unidos. Segundo ele, as duas últimas semanas foram um ponto de virada. A Anthropic lançou o Claude Fable 5, versão de seu modelo Mythos, com restrições que iam além da segurança: proibiu desenvolvedores de usar o modelo para construir tecnologia de IA concorrente. Pior, inicialmente degradou a qualidade das respostas de forma silenciosa para quem foi detectado como pesquisador de IA, sem avisar ninguém. Depois de muita reclamação, a empresa voltou atrás na parte silenciosa, mas manteve o bloqueio. --- Logo em seguida, o governo americano usou seus poderes de controle de exportação para restringir o acesso ao Fable 5, exigindo licença para qualquer estrangeiro usar o modelo. Isso levou a Anthropic a desligar o acesso mundial ao Fable. Andrew Ng aponta que Sam Altman, da OpenAI, resumiu bem a ironia: 'É um marketing incrível dizer que construiu uma bomba, que vai jogá-la na sua cabeça, e depois vender o abrigo por 100 milhões de dólares'. Ng deixa claro que não acha que a Anthropic criou nenhuma bomba e que os controles de exportação são despropositados. --- O efeito colateral, segundo Ng, é que governos do mundo inteiro agora perceberam que os EUA podem cortar seu acesso a modelos de IA da noite para o dia. Isso deve acelerar investimentos em alternativas de código aberto e em soberania digital. Ng compara a situação com o que aconteceu com semicondutores na China: quando os EUA tentaram limitar o acesso, o esforço chinês só ganhou mais força. A conclusão dele é que todos agora enxergam a fragilidade de depender de um único fornecedor, e isso pode, no final, empurrar o setor para um ecossistema mais aberto.

@emollick

📉Estudo com alunos na China confirma: IA no dever de casa derruba notas

Um estudo de larga escala feito na China encontrou o que muitos professores já desconfiavam: quando alunos usam IA para fazer dever de casa e o tempo de estudo cai, as notas nas provas caem junto. Não é que a IA seja inútil para aprender. O problema está em como ela é usada. Quando substitui o esforço mental do aluno, em vez de apoiá-lo, o resultado é negativo. --- Ethan Mollick, professor da Wharton e uma das vozes mais ativas sobre IA na educação, resumiu o padrão que aparece em vários estudos: tutoria com IA dentro da sala de aula funciona bem, mas usar IA como atalho para o dever de casa faz mal. É a diferença entre ter um professor particular e ter alguém fazendo o exercício por você. A ferramenta é a mesma, o que muda é a intenção.

@rahulgs

🤖Fintech Ramp já gera mais de 75% do seu código com agente de IA

A Ramp, fintech americana de gestão de despesas corporativas, revelou que mais de 75% do código produzido na empresa agora vem de um agente de IA interno chamado Inspect. Não é um experimento: é o dia a dia. Rahul, líder técnico do projeto, detalhou o que foi preciso para chegar nesse ponto. A lista inclui preparação minuciosa dos repositórios (a 'base de código' da empresa), remoção de ferramentas desnecessárias, testes automáticos paralelos e obsessão com velocidade, perseguindo cada milissegundo de atraso. --- Um detalhe interessante é a regra de ouro que eles seguem: as instruções para a IA devem ser descritivas ('corrija isso', 'implemente essa funcionalidade'), nunca prescritivas ('use tal ferramenta específica'). Outro ponto revelador: por enquanto, os 75% se referem principalmente a alterações menores e menos complexas. Para funcionalidades grandes, alguns engenheiros já usam o agente, mas a equipe reconhece que ainda há uma lacuna a fechar. Mesmo assim, o caso da Ramp é um dos exemplos mais concretos de adoção massiva de IA na produção de software.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter