💻Modelo de 397B parâmetros roda em MacBook M3
Simon Willison compartilhou uma descoberta que parece mágica: alguém está rodando o Qwen 3.5 de 397 bilhões de parâmetros - um modelo de 209GB - em um MacBook M3 a 5.7 tokens por segundo, usando apenas 5.5GB de memória ativa. --- O truque? Quantização agressiva e streaming de pesos direto do SSD a 17GB/s. Como modelos MoE (Mixture of Experts) só usam uma fração dos pesos pra cada token, dá pra carregar sob demanda em vez de manter tudo na RAM. --- Isso muda completamente o jogo pra quem quer rodar modelos localmente. Você não precisa mais de uma workstation de 100 mil dólares - um laptop de alto desempenho já serve. A democratização dos modelos grandes está acontecendo mais rápido que qualquer um esperava.
Dan says he's got Qwen 3.5 397B-A17B - a 209GB on disk MoE model - running on an M3 Mac at ~5.7 tokens per second using only 5.5 GB of active memory (!) by quantizing and then streaming weights from SSD (at ~17GB/s), since MoE models only use a small subset of their weights for each token
— @simonw View on X
Um modelo de linguagem com 397 bilhões de parâmetros está operando em um MacBook M3 comum, utilizando apenas 5,5 GB de memória RAM ativa. A configuração, demonstrada pelo desenvolvedor Dan e compartilhada por Simon Willison, alcança 5,7 tokens por segundo no Qwen 3.5 397B-A17B — um arquivo de 209 GB que normalmente exigiria infraestrutura enterprise.
A arquitetura que viabiliza o feito
O modelo utiliza arquitetura MoE (Mixture of Experts), onde apenas uma fração dos parâmetros é ativada por token processado. Diferente de modelos densos tradicionais, que carregam todos os pesos na memória, este carrega sob demanda.
A técnica combina dois elementos:
- **Quantização agressiva**: Reduz a precisão numérica dos pesos, diminuindo o footprint de cada parâmetro carregado
- **Streaming de pesos do SSD**: Em vez de manter os 209 GB na RAM, o sistema busca os pesos necessários diretamente do armazenamento NVMe (a 17 GB/s) durante a inferência
O resultado é uma latência aceitável para uso local, mesmo em hardware consumer.
Impacto para builders e desenvolvedores brasileiros
Para o ecossistema de desenvolvimento no Brasil, onde hardware de alta performance tem custo elevado e acesso a GPUs enterprise é limitado, essa abordagem muda as possibilidades de prototipagem:
- **Inferência local de LLMs de ponta**: Desenvolvedores podem testar modelos de última geração sem depender de APIs pagas ou conexão estável com cloud
- **Privacidade de dados**: Processamento 100% local para aplicações sensíveis, sem trafegar informações por servidores externos
- **Edge computing avançado**: Viabiliza deploy de assistentes inteligentes em máquinas comuns, não apenas em datacenters
Limitações técnicas a considerar
A velocidade de 5,7 tokens por segundo é funcional para interações individuais, mas insuficiente para aplicações de alta concorrência ou processamento batch em larga escala. Além disso, a