News06 JunhoGoogle comprime modelos de IA para rodar no celular sem internet
Edição #115·6 de junho de 2026·2 min

📱Google comprime modelos de IA para rodar no celular sem internet

O Google lançou versões ultracomprimidas dos seus modelos Gemma 4, projetadas para rodar localmente em celulares, notebooks e computadores com pouca memória. A versão mais leve, chamada Gemma 4 E2B (só texto), funciona com menos de 1 GB de memória. Para comparação, isso é menos do que muitos aplicativos de redes sociais ocupam. --- A mágica está numa técnica chamada QAT, que, em vez de simplesmente 'espremer' o modelo depois de pronto (o que destrói qualidade), já treina o modelo sabendo que ele vai ser comprimido. O resultado é um modelo muito menor que mantém boa parte da capacidade de raciocínio do original. Algumas camadas foram comprimidas a ponto de usar apenas 2 bits por parâmetro. --- Na prática, isso significa que estamos cada vez mais perto de ter IA competente funcionando offline, direto no aparelho, sem depender de servidores na nuvem. Mais privacidade, mais velocidade, menos custo. O Google já liberou os arquivos prontos para uso em dispositivos móveis.

Google comprime modelos de IA para rodar no celular sem internet

O que mudou

O Google lançou versões ultracomprimidas dos modelos Gemma 4 capazes de rodar localmente em dispositivos com menos de 1 GB de memória RAM. A variante mais leve, Gemma 4 E2B, processa texto consumindo menos recursos do que aplicativos tradicionais de redes sociais. Essa mudança aproxima a IA generativa do uso offline em celulares e notebooks comuns.

Como a compressão funciona

A técnica por trás desses modelos é chamada de QAT (Quantization-Aware Training), ou treinamento consciente de quantização. Diferente da compressão tradicional, que reduz o modelo após o treinamento e perde qualidade, o QAT treina o modelo já sabendo que será comprimido. O resultado mantém boa parte da capacidade de raciocínio original.

Algumas camadas do Gemma 4 foram reduzidas a apenas 2 bits por parâmetro, representando uma densidade de compressão alta. Essa abordagem permite que modelos de linguagem funcionem em hardware modesto sem depender de servidores na nuvem.

Impacto para desenvolvedores brasileiros

Para builders e devs que desenvolvem aplicativos mobile no Brasil, essa evolução resolve problemas práticos. A execução local elimina a necessidade de APIs externas, reduzindo custos de infraestrutura e latência. Aplicativos podem oferecer funcionalidades de IA mesmo em áreas com conexão instável ou usuários com planos de dados limitados.

A privacidade também melhora significativamente. Dados sensíveis não precisam sair do dispositivo para processamento, atendendo requisitos de LGPD e casos de uso em setores como fintechs e saúde.

O que isso representa

O lançamento indica uma tendência clara: modelos de IA estão se tornando compactos o suficiente para execução em edge devices. Para o ecossistema brasileiro de tecnologia, significa que startups podem integrar funcionalidades de IA generativa em apps mobile sem arcar com custos de API por requisição.

Os arquivos estão disponíveis para download e podem ser testados em dispositivos Android e computadores convencionais. A barreira de entrada para experimentação com IA local diminuiu consideravelmente.

modelosgemmaaplicativosessacompressãopodemdispositivosmenosgenerativauso

Mais da mesma edição

@SemiAnalysis_

🔓Nvidia abre projeto dos servidores Rubin e revela surpresa: um chip AMD lá dentro

A Nvidia fez algo raro: abriu publicamente os diagramas e a lista completa de componentes dos seus novos servidores da linha Rubin, os mais poderosos que a empresa já produziu. E dentro dessa documentação apareceu um detalhe que chamou atenção de todo o setor: cada rack (aquele armário gigante de servidores) usa 9 pequenos processadores da AMD, sua principal concorrente em chips. --- O chip em questão é o AMD EPYC 3151, um processador simples, de uso embutido, que faz o papel de gerenciar funções internas do servidor. Não é o cérebro do sistema, mas é curioso ver a Nvidia precisando da rival para fazer seu próprio hardware funcionar. O projeto foi publicado no GitHub com licença aberta, o que significa que qualquer fabricante pode estudar e até replicar partes da arquitetura. --- É um movimento estratégico: ao abrir o projeto, a Nvidia facilita a vida de quem monta data centers e quer padronizar infraestrutura. E a presença da AMD ali dentro mostra que, por mais que as duas disputem mercado ferozmente, na prática o ecossistema de chips é mais interdependente do que parece.

@eglyman

💸Ramp levanta US$ 750 milhões e expõe o maior problema das empresas com IA

A Ramp, fintech americana de gestão de gastos corporativos, levantou uma rodada de US$ 750 milhões com avaliação de US$ 44 bilhões. Mas o mais interessante não foi o cheque: foi o alerta do CEO Eric Glyman sobre como as empresas estão queimando dinheiro com inteligência artificial sem ter a menor ideia do que está funcionando. --- Glyman deu um exemplo prático: a maioria das empresas usa os modelos mais caros e poderosos (os chamados 'de fronteira') para qualquer tarefa, inclusive para resumir reuniões ou atualizar calendários, coisas que modelos mais baratos resolvem perfeitamente. Redirecionar apenas 10% de uma fatura de US$ 10 milhões em IA para modelos mais simples economizaria quase US$ 1 milhão. --- O ponto central é que a IA está se tornando o terceiro grande pilar de custo das empresas, junto com pessoas e software. Mas, diferente de salários e licenças, quase ninguém sabe medir se aquele gasto em IA realmente gerou resultado. O financeiro quer cortar, a engenharia quer dobrar, e ninguém tem dados para resolver a briga.

@GeminiApp

🎨Gemini Live agora cria e edita imagens em tempo real pela câmera

O Gemini Live, modo de conversa ao vivo do assistente do Google, ganhou a capacidade de criar e editar imagens durante a conversa. Você abre o app, aperta o botão Live, compartilha a câmera e vai pedindo o que quer ver. Quer testar como ficaria um sofá diferente na sua sala? Mostra o ambiente e pede. Precisa de ajuda visual com um problema de matemática? Aponta a câmera e conversa. --- O diferencial aqui é que tudo acontece dentro da conversa, sem precisar trocar de app ou de modo. Você fala naturalmente com o Gemini enquanto ele gera e ajusta imagens na hora. É o tipo de funcionalidade que soa como demonstração de feira de tecnologia, mas que está chegando de fato ao celular de qualquer pessoa com o app instalado. --- A aposta do Google é clara: transformar o Gemini num assistente visual que entende o contexto do que você está vendo e consegue criar em cima disso. Se funcionar bem no dia a dia, é o tipo de coisa que muda a forma como pessoas decoram casas, escolhem roupas ou explicam ideias.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter