Bug na NVIDIA obriga reiniciar racks a cada 66 dias

🐛Bug na NVIDIA obriga reiniciar racks a cada 66 dias

A SemiAnalysis, publicação especializada em semicondutores, revelou um bug de firmware nos racks GB300 NVL72 da NVIDIA. Esses são os supercomputadores que as grandes empresas de IA usam para treinar e rodar seus modelos. O problema: eles precisam ser reiniciados a cada 66,5 dias, caso contrário travam. --- Parece pouco, mas em data centers que rodam 24 horas por dia, 7 dias por semana, cada reinicialização é tempo perdido e dinheiro jogado fora. A SemiAnalysis fez questão de ressaltar uma ironia: todo mundo acha que o software da NVIDIA é de primeiro mundo, mas na real ainda tem problemas. A diferença é que, entre os concorrentes, a NVIDIA apenas tem o software "menos pior". --- É o tipo de detalhe que mostra como a infraestrutura de IA ainda está sendo construída no improviso. A empresa que domina 90% do mercado de chips para IA não consegue evitar um bug que parece saído de um roteador doméstico dos anos 2000.

A SemiAnalysis, publicação especializada em semicondutores, revelou um bug de firmware nos racks GB300 NVL72 da NVIDIA. Esses são os supercomputadores que as grandes empresas de IA usam para treinar e rodar seus modelos. O problema: eles precisam ser reiniciados a cada 66,5 dias, caso contrário travam.
— @SemiAnalysis_ View on X

O problema

A NVIDIA possui um bug de firmware nos racks GB300 NVL72 que obriga reinicialização a cada 66,5 dias. A descoberta foi feita pela SemiAnalysis, publicação especializada em semicondutores. Sem o restart manual, os sistemas travam.

O que são os racks GB300 NVL72

Os NVL72 são supercomputadores de alta densidade usados por grandes empresas de IA para treinar e rodar modelos de linguagem em escala. Cada rack contém 72 GPUs interconectadas, formando o backbone de data centers que processam bilhões de parâmetros diariamente.

Esses equipamentos estão no centro da infraestrutura de IA das maiores empresas do setor — incluindo as que oferecem serviços de cloud computing para desenvolvedores brasileiros.

Impacto operacional

Em ambientes de produção que operam 24/7, uma reinicialização programada significa:

Tempo de inatividade estimado em horas por reinício
Interrupção de jobs de treinamento que podem levar dias
Perda de eficiência computacional
Custo operacional adicional

A SemiAnalysis chamou atenção para uma ironia: a NVIDIA, vista como referência em software entre fabricantes de hardware de IA, ainda apresenta problemas desse nível. A diferença é que concorrentes como AMD e Intel têm lacunas ainda maiores em software e ecossistema.

O que isso revela

O bug expõe uma realidade pouco discutida: a infraestrutura de IA ainda está em construção. A NVIDIA domina aproximadamente 90% do mercado de chips para IA, mas mesmo assim entrega firmware com falhas básicas.

Para builders e devs brasileiros que utilizam serviços baseados em GPUs NVIDIA — seja em cloud providers nacionais ou internacionais —, isso significa que a confiabilidade da camada de hardware não é absoluta. Planejamentos de infraestrutura devem considerar procedimentos de manutenção preventiva.

O mercado de IA brasileiro cresce em velocidade acelerada. Compreender essas limitações técnicas é essencial para evitar surpresas em ambientes de produção. A dependência de um único fornecedor de hardware traz riscos operacionais que vão além de preço e disponibilidade.

nvidianvlinfraestruturahardwareaindabugfirmwareracksreinicializaçãocada

🐛Bug na NVIDIA obriga reiniciar racks a cada 66 dias

O problema

O que são os racks GB300 NVL72

Impacto operacional

O que isso revela

Mais da mesma edição

🌶️OpenAI anuncia seu primeiro chip próprio: o Jalapeño

⚡GPT-5.5 Instant começa a chegar para todo mundo

🖥️Gemini 3.5 Flash agora controla seu computador e celular

Receba no seu email