🔌OpenAI cria protocolo aberto de rede com as maiores do setor
A OpenAI se juntou com AMD, Broadcom, Intel, Microsoft e Nvidia para lançar o MRC - um protocolo aberto de rede que faz clusters gigantes de treinamento de IA rodarem mais rápido e com menos desperdício de GPU. --- O nome é técnico, mas a ideia é simples: quando milhares de GPUs precisam conversar entre si durante o treinamento de um modelo, a rede é o gargalo. Pacotes se perdem, conexões caem, GPUs ficam ociosas esperando. O MRC cria caminhos múltiplos e redundantes, tipo ter várias estradas entre duas cidades em vez de uma só. --- O fato de ser aberto é o que importa. Não é um padrão proprietário da Nvidia ou da Microsoft. É um esforço conjunto para que qualquer empresa possa construir infraestrutura de IA mais eficiente. Quando rivais desse porte concordam em colaborar, é porque o problema é grande demais para cada um resolver sozinho.
We've partnered with @AMD, @Broadcom, @Intel, @Microsoft, and @NVIDIA, to release Multipath Reliable Connection (MRC), a new open networking protocol that helps large AI training clusters run faster and more reliably, with less wasted GPU time.
— @OpenAI View on X
A OpenAI anunciou nesta semana o Multipath Reliable Connection (MRC), protocolo de rede aberto desenvolvido em parceria com AMD, Broadcom, Intel, Microsoft e Nvidia. A tecnologia resolve um gargalo crítico em clusters massivos de treinamento de IA: a perda de pacotes e a ociosidade de GPUs causadas por falhas de conectividade. Ao permitir múltiplos caminhos redundantes entre servidores, o MRC reduz o tempo desperdiçado de processamento e aumenta a eficiência de infraestruturas que utilizam milhares de aceleradores em paralelo.
O gargalo da comunicação em clusters de GPU
Treinar modelos de linguagem grandes (LLMs) exige sincronização constante entre GPUs distribuídas em nós diferentes. Quando a rede falha ou pacotes se perdem, o treinamento para. GPUs ficam ociosas esperando dados, gerando custo computacional sem produção efetiva. Este problema, conhecido como tail latency, escala exponencialmente com o tamanho do cluster. Em sistemas que somam dezenas de milhares de unidades, mesmo pequenas falhas de rede resultam em perdas significativas de throughput e aumento do tempo total de treinamento.
Arquitetura multipath e redundância
O MRC implementa multipathing na camada de transporte. Em vez de depender de uma única rota entre dois pontos, o protocolo estabelece conexões paralelas e balanceia o tráfego automaticamente. Se um caminho apresentar congestionamento ou falha, o tráfego é redirecionado instantaneamente para rotas alternativas sem interromper a sincronização dos tensores. A especificação é aberta, permitindo implementação em hardware heterogêneo — não está limitada a soluções proprietárias como InfiniBand ou tecnologias exclusivas de um único fabricante.
Implicações para builders e o mercado brasileiro
Para desenvolvedores e empresas de tecnologia no Brasil, o protocolo representa mudanças concretas na operação de infraestrutura:
- Redução de custos operacionais: maior utilização das GPUs significa menor tempo de computação necessário para treinar modelos, impactando diretamente faturas de computação em nuvem.
- Interoperabilidade: a padronização aberta facilita arquiteturas multi-cloud e on-premise que misturam hardware de diferentes fornecedores, reduzindo o vendor lock-in.
O fato de concorrentes diretos como AMD e Nvidia colaborarem neste padrão indica que a eficiência de rede se tornou um problema de infraestrutura crítico para a indústria. A adoção em massa do MRC pode nivelar o campo para provedores de serviços de IA menores, que hoje dependem de soluções de rede proprietárias e custosas.
A iniciativa sinaliza uma mudança no mercado de infraestrutura de IA: a otimização de protocolos de comunicação agora recebe atenção equivalente à evolução dos próprios chips. Para times que operam clusters de treinamento, avaliar o suporte a MRC nos próximos deployments deverá entrar no checklist de arquitetura de sistemas.