News19 MarçoModelo de 397B parâmetros roda em MacBook M3
Edição #38·19 de março de 2026·1 min

💻Modelo de 397B parâmetros roda em MacBook M3

Simon Willison compartilhou uma descoberta que parece mágica: alguém está rodando o Qwen 3.5 de 397 bilhões de parâmetros - um modelo de 209GB - em um MacBook M3 a 5.7 tokens por segundo, usando apenas 5.5GB de memória ativa. --- O truque? Quantização agressiva e streaming de pesos direto do SSD a 17GB/s. Como modelos MoE (Mixture of Experts) só usam uma fração dos pesos pra cada token, dá pra carregar sob demanda em vez de manter tudo na RAM. --- Isso muda completamente o jogo pra quem quer rodar modelos localmente. Você não precisa mais de uma workstation de 100 mil dólares - um laptop de alto desempenho já serve. A democratização dos modelos grandes está acontecendo mais rápido que qualquer um esperava.

Um modelo de linguagem com 397 bilhões de parâmetros está operando em um MacBook M3 comum, utilizando apenas 5,5 GB de memória RAM ativa. A configuração, demonstrada pelo desenvolvedor Dan e compartilhada por Simon Willison, alcança 5,7 tokens por segundo no Qwen 3.5 397B-A17B — um arquivo de 209 GB que normalmente exigiria infraestrutura enterprise.

A arquitetura que viabiliza o feito

O modelo utiliza arquitetura MoE (Mixture of Experts), onde apenas uma fração dos parâmetros é ativada por token processado. Diferente de modelos densos tradicionais, que carregam todos os pesos na memória, este carrega sob demanda.

A técnica combina dois elementos:

  • **Quantização agressiva**: Reduz a precisão numérica dos pesos, diminuindo o footprint de cada parâmetro carregado
  • **Streaming de pesos do SSD**: Em vez de manter os 209 GB na RAM, o sistema busca os pesos necessários diretamente do armazenamento NVMe (a 17 GB/s) durante a inferência

O resultado é uma latência aceitável para uso local, mesmo em hardware consumer.

Impacto para builders e desenvolvedores brasileiros

Para o ecossistema de desenvolvimento no Brasil, onde hardware de alta performance tem custo elevado e acesso a GPUs enterprise é limitado, essa abordagem muda as possibilidades de prototipagem:

  • **Inferência local de LLMs de ponta**: Desenvolvedores podem testar modelos de última geração sem depender de APIs pagas ou conexão estável com cloud
  • **Privacidade de dados**: Processamento 100% local para aplicações sensíveis, sem trafegar informações por servidores externos
  • **Edge computing avançado**: Viabiliza deploy de assistentes inteligentes em máquinas comuns, não apenas em datacenters

Limitações técnicas a considerar

A velocidade de 5,7 tokens por segundo é funcional para interações individuais, mas insuficiente para aplicações de alta concorrência ou processamento batch em larga escala. Além disso, a

pesosapenaslocalmodeloparâmetrosmemóriaramtokenssegundoenterprise

Mais da mesma edição

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter