🐛Bug na NVIDIA obriga reiniciar racks a cada 66 dias
A SemiAnalysis, publicação especializada em semicondutores, revelou um bug de firmware nos racks GB300 NVL72 da NVIDIA. Esses são os supercomputadores que as grandes empresas de IA usam para treinar e rodar seus modelos. O problema: eles precisam ser reiniciados a cada 66,5 dias, caso contrário travam. --- Parece pouco, mas em data centers que rodam 24 horas por dia, 7 dias por semana, cada reinicialização é tempo perdido e dinheiro jogado fora. A SemiAnalysis fez questão de ressaltar uma ironia: todo mundo acha que o software da NVIDIA é de primeiro mundo, mas na real ainda tem problemas. A diferença é que, entre os concorrentes, a NVIDIA apenas tem o software "menos pior". --- É o tipo de detalhe que mostra como a infraestrutura de IA ainda está sendo construída no improviso. A empresa que domina 90% do mercado de chips para IA não consegue evitar um bug que parece saído de um roteador doméstico dos anos 2000.

A SemiAnalysis, publicação especializada em semicondutores, revelou um bug de firmware nos racks GB300 NVL72 da NVIDIA. Esses são os supercomputadores que as grandes empresas de IA usam para treinar e rodar seus modelos. O problema: eles precisam ser reiniciados a cada 66,5 dias, caso contrário travam.
— @SemiAnalysis_ View on X
O problema
A NVIDIA possui um bug de firmware nos racks GB300 NVL72 que obriga reinicialização a cada 66,5 dias. A descoberta foi feita pela SemiAnalysis, publicação especializada em semicondutores. Sem o restart manual, os sistemas travam.
O que são os racks GB300 NVL72
Os NVL72 são supercomputadores de alta densidade usados por grandes empresas de IA para treinar e rodar modelos de linguagem em escala. Cada rack contém 72 GPUs interconectadas, formando o backbone de data centers que processam bilhões de parâmetros diariamente.
Esses equipamentos estão no centro da infraestrutura de IA das maiores empresas do setor — incluindo as que oferecem serviços de cloud computing para desenvolvedores brasileiros.
Impacto operacional
Em ambientes de produção que operam 24/7, uma reinicialização programada significa:
- Tempo de inatividade estimado em horas por reinício
- Interrupção de jobs de treinamento que podem levar dias
- Perda de eficiência computacional
- Custo operacional adicional
A SemiAnalysis chamou atenção para uma ironia: a NVIDIA, vista como referência em software entre fabricantes de hardware de IA, ainda apresenta problemas desse nível. A diferença é que concorrentes como AMD e Intel têm lacunas ainda maiores em software e ecossistema.
O que isso revela
O bug expõe uma realidade pouco discutida: a infraestrutura de IA ainda está em construção. A NVIDIA domina aproximadamente 90% do mercado de chips para IA, mas mesmo assim entrega firmware com falhas básicas.
Para builders e devs brasileiros que utilizam serviços baseados em GPUs NVIDIA — seja em cloud providers nacionais ou internacionais —, isso significa que a confiabilidade da camada de hardware não é absoluta. Planejamentos de infraestrutura devem considerar procedimentos de manutenção preventiva.
O mercado de IA brasileiro cresce em velocidade acelerada. Compreender essas limitações técnicas é essencial para evitar surpresas em ambientes de produção. A dependência de um único fornecedor de hardware traz riscos operacionais que vão além de preço e disponibilidade.
