News06 JunhoRamp levanta US$ 750 milhões e expõe o maior problema das empresas com IA
Edição #115·6 de junho de 2026·2 min

💸Ramp levanta US$ 750 milhões e expõe o maior problema das empresas com IA

A Ramp, fintech americana de gestão de gastos corporativos, levantou uma rodada de US$ 750 milhões com avaliação de US$ 44 bilhões. Mas o mais interessante não foi o cheque: foi o alerta do CEO Eric Glyman sobre como as empresas estão queimando dinheiro com inteligência artificial sem ter a menor ideia do que está funcionando. --- Glyman deu um exemplo prático: a maioria das empresas usa os modelos mais caros e poderosos (os chamados 'de fronteira') para qualquer tarefa, inclusive para resumir reuniões ou atualizar calendários, coisas que modelos mais baratos resolvem perfeitamente. Redirecionar apenas 10% de uma fatura de US$ 10 milhões em IA para modelos mais simples economizaria quase US$ 1 milhão. --- O ponto central é que a IA está se tornando o terceiro grande pilar de custo das empresas, junto com pessoas e software. Mas, diferente de salários e licenças, quase ninguém sabe medir se aquele gasto em IA realmente gerou resultado. O financeiro quer cortar, a engenharia quer dobrar, e ninguém tem dados para resolver a briga.

Ramp levanta US$ 750 milhões e expõe o maior problema das empresas com IA

O alerta que toda empresa brasileira deveria ouvir

A fintech americana Ramp levantou US$ 750 milhões com avaliação de US$ 44 bilhões, mas o mais relevante da rodada não foi o cheque. Foi o aviso do CEO Eric Glyman: empresas estão gastando milhões em inteligência artificial sem qualquer métrica para saber se o investimento vale a pena.

O tamanho do problema

Glyman pointed out que a IA se tornou o terceiro maior pilar de custo nas empresas, ao lado de pessoal e software. A diferença é que, enquanto salários e licenças de software têm métricas claras de retorno, gastos com LLMs operam em uma zona cinzenta. "Um token só diz que o medidor rodou, não se o trabalho valeu a pena", afirmou o CEO.

O executivo deu um exemplo concreto: a maioria das organizações usa modelos de fronteira — os mais potentes e caros — para tarefas simples como resumir reuniões ou atualizar calendários. Modelos menores e mais baratos resolvem essas mesmas funções com eficiência muito superior em custo-benefício.

A conta é simples. Redirecionar apenas 10% de uma fatura de US$ 10 milhões em IA para modelos mais simples representaria uma economia de quase US$ 1 milhão. Em empresas com dezenas de milhões em gastos anuais com inference, o desperdício pode atingir centenas de milhares de dólares.

Por que isso importa para builders e devs brasileiros

No Brasil, a adoção de LLMs está acelerando. Empresas estão integrando modelos da OpenAI, Anthropic e alternativas open source em produtos e operações internas. O problema é que poucos têm visibilidade real sobre o custo por requisição, o volume de tokens processados e, principalmente, se o output justifica o investimento.

O conflito interno descrito por Glyman — financeiro querendo cortar, engenharia querendo dobrar — já acontece em startups brasileiras. Sem dados de ROI, a discussão vira batalha de opiniões, não de evidências.

Para desenvolvedores que implementam integrações com LLMs, o recado é claro: a escolha do modelo não é apenas técnica, é financeira. Usar GPT-4 para uma tarefa que um modelo de 7 bilhões de parâmetros resolve pode custar 10x mais sem ganho proporcional de qualidade.

O caminho adiante

Empresas que conseguirem instrumentar custos de IA, medir output por tarefa e escolher o modelo certo para cada caso terão vantagem competitiva significativa. O mercado está passando da fase de experimentação para a fase de otimização — e quem não fazer essa transição verá a conta explodes.

nãoempresasmilhõesmodelosglymansemllmssimplesmodelobilhões

Mais da mesma edição

@SemiAnalysis_

🔓Nvidia abre projeto dos servidores Rubin e revela surpresa: um chip AMD lá dentro

A Nvidia fez algo raro: abriu publicamente os diagramas e a lista completa de componentes dos seus novos servidores da linha Rubin, os mais poderosos que a empresa já produziu. E dentro dessa documentação apareceu um detalhe que chamou atenção de todo o setor: cada rack (aquele armário gigante de servidores) usa 9 pequenos processadores da AMD, sua principal concorrente em chips. --- O chip em questão é o AMD EPYC 3151, um processador simples, de uso embutido, que faz o papel de gerenciar funções internas do servidor. Não é o cérebro do sistema, mas é curioso ver a Nvidia precisando da rival para fazer seu próprio hardware funcionar. O projeto foi publicado no GitHub com licença aberta, o que significa que qualquer fabricante pode estudar e até replicar partes da arquitetura. --- É um movimento estratégico: ao abrir o projeto, a Nvidia facilita a vida de quem monta data centers e quer padronizar infraestrutura. E a presença da AMD ali dentro mostra que, por mais que as duas disputem mercado ferozmente, na prática o ecossistema de chips é mais interdependente do que parece.

@ai_for_success

📱Google comprime modelos de IA para rodar no celular sem internet

O Google lançou versões ultracomprimidas dos seus modelos Gemma 4, projetadas para rodar localmente em celulares, notebooks e computadores com pouca memória. A versão mais leve, chamada Gemma 4 E2B (só texto), funciona com menos de 1 GB de memória. Para comparação, isso é menos do que muitos aplicativos de redes sociais ocupam. --- A mágica está numa técnica chamada QAT, que, em vez de simplesmente 'espremer' o modelo depois de pronto (o que destrói qualidade), já treina o modelo sabendo que ele vai ser comprimido. O resultado é um modelo muito menor que mantém boa parte da capacidade de raciocínio do original. Algumas camadas foram comprimidas a ponto de usar apenas 2 bits por parâmetro. --- Na prática, isso significa que estamos cada vez mais perto de ter IA competente funcionando offline, direto no aparelho, sem depender de servidores na nuvem. Mais privacidade, mais velocidade, menos custo. O Google já liberou os arquivos prontos para uso em dispositivos móveis.

@GeminiApp

🎨Gemini Live agora cria e edita imagens em tempo real pela câmera

O Gemini Live, modo de conversa ao vivo do assistente do Google, ganhou a capacidade de criar e editar imagens durante a conversa. Você abre o app, aperta o botão Live, compartilha a câmera e vai pedindo o que quer ver. Quer testar como ficaria um sofá diferente na sua sala? Mostra o ambiente e pede. Precisa de ajuda visual com um problema de matemática? Aponta a câmera e conversa. --- O diferencial aqui é que tudo acontece dentro da conversa, sem precisar trocar de app ou de modo. Você fala naturalmente com o Gemini enquanto ele gera e ajusta imagens na hora. É o tipo de funcionalidade que soa como demonstração de feira de tecnologia, mas que está chegando de fato ao celular de qualquer pessoa com o app instalado. --- A aposta do Google é clara: transformar o Gemini num assistente visual que entende o contexto do que você está vendo e consegue criar em cima disso. Se funcionar bem no dia a dia, é o tipo de coisa que muda a forma como pessoas decoram casas, escolhem roupas ou explicam ideias.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter