🔄xAI dá 220 mil GPUs para a Anthropic (e ganha US$ 6 bi com isso)
O acordo mais improvável do ano: a xAI, de Elon Musk, alugou todo o data center Colossus 1 - com mais de 220 mil GPUs - para a Anthropic, sua concorrente direta. Parece loucura, mas a lógica financeira é brilhante. --- O Colossus 1 mistura três gerações de chips da NVIDIA (H100, H200 e GB200), e esse mix é um pesadelo para treinamento de IA. A taxa de utilização chegou a míseros 11% - enquanto Meta e Google ficam acima de 40%. O problema é que, no treinamento distribuído, a GPU mais rápida fica esperando a mais lenta terminar. É como uma corrida de revezamento onde o atleta mais devagar define o tempo final de todo mundo. --- Mas para inferência - quando a IA já está treinada e só precisa responder perguntas - essa mistura funciona bem. Cada GPU trabalha de forma mais independente. Então a xAI ficou com o Colossus 2 (100% Blackwell, novinho) para treinar seus modelos, e transformou o Colossus 1 num negócio de aluguel que gera cerca de US$ 6 bilhões por ano. Coincidência: é quase exatamente o prejuízo anual da xAI. Uma tacada só puxa a empresa pro zero a zero bem a tempo do IPO da SpaceXAI, avaliado em US$ 1,75 trilhão.
Why did xAI hand over a 220,000-GPU cluster to Anthropic? The technical backdrop to xAI's decision to hand Colossus 1 over to Anthropic in its entirety is more interesting than it appears. xAI deployed more than 220,000 NVIDIA GPUs at its Colossus 1 data center in Memphis. Of these, roughly 150,000 are estimated to be H100s, 50,000 H200s, and 20,000 GB200s. In other words, three different generations of silicon are mixed together inside a single cluster — a "heterogeneous architecture." For distributed training, however, this configuration is close to a disaster. The 11% GPU utilization rate (MFU) at xAI stands in stark contrast to the 40%+ MFU figures achieved by Meta and Google. xAI judged that training frontier models on Colossus 1 simply was not efficient enough. It moved its own training workloads onto Colossus 2, built as a 100% Blackwell homogeneous cluster. Colossus 1 was leased to Anthropic for inference. The real point: Elon's objective appears to be positioning ahead of the SpaceXAI IPO at a $1.75 trillion valuation. The narrative SpaceXAI now needs is that xAI is a business with a 'neo-cloud' model capable of leasing surplus assets at high yields. The $5-6 billion in annual revenue from leasing Colossus 1 almost perfectly hedges xAI's loss figure.
— @jukan05 View on X
A xAI, de Elon Musk, transformou um problema técnico em receita de US$ 6 bilhões. A empresa alugou todo o data center Colossus 1 — com mais de 220 mil GPUs NVIDIA — para a Anthropic, sua rival no desenvolvimento de modelos de IA. A decisão não é caridade: é uma correção arquitetural que converte passivo em fluxo de caixa.
O problema técnico: arquitetura heterogênea e baixa MFU
O Colossus 1 opera com uma arquitetura heterogênea rara no mercado. O cluster mistura três gerações de silício NVIDIA: cerca de 150 mil GPUs H100, 50 mil H200 e 20 mil GB200. Para treinamento distribuído de grandes modelos de linguagem (LLMs), essa configuração gera um gargalo severo.
A métrica Model FLOPs Utilization (MFU) da xAI no Colossus 1 está em 11%. Para comparação, Meta e Google alcançam 40% ou mais em clusters homogêneos. No treinamento síncrono, a GPU mais rápida fica ociosa esperando a mais lenta completar seus cálculos. O resultado é baixa eficiência de computação e alto custo por iteração.
Treinamento vs inferência: por que o mesmo hardware serve para um e não para o outro
A xAI migrou suas cargas de treinamento para o Colossus 2, construído como cluster 100% Blackwell. O Colossus 1, porém, não virou sucata eletrônica.
Em inferência — quando o modelo já está treinado e apenas processa requisições — as GPUs trabalham de forma assíncrona e independente. Cada chip processa batches separados sem necessidade de sincronização constante. Isso torna o ambiente heterogêneo viável para servir APIs de IA, mesmo que inadequado para treinar modelos frontier.
A jogada financeira: de passivo a ativo rentável
Ao posicionar o Colossus 1 como infraestrutura de inferência para a Anthropic, a xAI criou um modelo de "neo-cloud". Os US$ 5 a 6 bilhões anuais em receita de leasing quase neutralizam os prejuízos operacionais da empresa.
O timing é estratégico. A xAI prepara o terreno para o IPO da SpaceXAI, avaliada em US$ 1,75 trilhão. Demonstrar capacidade de monetizar ativos de infraestrutura em vez de apenas consumi-los em treinamento muda o discurso para investidores: de empresa de pesquisa para player de infraestrutura de IA.
Implicações para builders brasileiros
Para desenvolvedores e arquitetos de sistemas no Brasil, o caso expõe uma realidade do mercado: eficiência de hardware importa mais que quantidade bruta de GPUs. A arquitetura homogênea está se tornando padrão para treinamento, enquanto clusters heterogêneos encontram novo propósito em serviços de inferência.
O movimento também sinaliza a maturidade do mercado de leasing de GPUs. Com escassez persistente de chips NVIDIA, grandes players estão otimizando seus ativos através de modelos de negócio que separam claramente workloads de treinamento e inferência — uma tendência que deve ecoar em provedores de cloud nacionais nos próximos trimestres.