🌍Cosmos 3 da NVIDIA: um modelo que vê, pensa e cria vídeo
Ainda na Computex, a NVIDIA apresentou o Cosmos 3, que a empresa chama de primeiro "omomodelo" totalmente aberto para IA física. Traduzindo: é um modelo que consegue entender imagens, raciocinar sobre o que vê e gerar vídeos a partir disso. Tudo num pacote só, disponível em duas versões: Super (32 bilhões de parâmetros) e Nano (8 bilhões). --- A ideia é dar aos desenvolvedores uma base pronta para criar sistemas de IA que interagem com o mundo real, como robôs e veículos autônomos, sem precisar começar do zero. Os pesos do modelo e as receitas de treinamento estão disponíveis gratuitamente no Hugging Face. --- Uma demonstração mostrou o modelo transformando uma foto de dashcam num vídeo simulado de corrida de Fórmula 1, completo com som gerado pela própria IA. É bonito, mas o valor real está em aplicações industriais: simular cenários físicos antes de colocar um robô para agir no mundo de verdade.
Ainda na Computex, a NVIDIA apresentou o Cosmos 3, que a empresa chama de primeiro "omomodelo" totalmente aberto para IA física. Traduzindo: é um modelo que consegue entender imagens, raciocinar sobre o que vê e gerar vídeos a partir disso. Tudo num pacote só, disponível em duas versões: Super (32 bilhões de parâmetros) e Nano (8 bilhões).
— @NVIDIAAI View on X
A NVIDIA apresentou na Computex 2025 o Cosmos 3, modelo de inteligência artificial que unifica compreensão visual, raciocínio e geração de vídeo em uma única arquitetura. Disponibilizado como open source, o sistema representa uma mudança de paradigma para desenvolvedores que trabalham com robótica e veículos autônomos, eliminando a necessidade de integrar múltiplos modelos especializados para criar agentes que interagem com o mundo físico.
Arquitetura unificada para IA física
O Cosmos 3 é classificado pela NVIDIA como o primeiro "omomodelo" aberto para IA física. Diferente de pipelines tradicionais que separam visão computacional, processamento de linguagem e geração multimodal, esta arquitetura consolida essas capacidades em um único sistema. O modelo processa entradas visuais, executa raciocínio espacial e temporal, e gera predições de cenários físicos, funcionando essencialmente como um *world model* para simulação de ambientes reais.
A disponibilização inclui pesos do modelo e receitas de treinamento completas no Hugging Face, permitindo *fine-tuning* para aplicações específicas sem dependência de APIs proprietárias.
Variações para cloud e edge
A NVIDIA disponibiliza duas configurações distintas:
- **Cosmos 3 Super**: 32 bilhões de parâmetros, voltado para treinamento e simulação em infraestrutura de cloud
- **Cosmos 3 Nano**: 8 bilhões de parâmetros, otimizado para deploy em dispositivos edge e robôs com recursos computacionais limitados
Essa segmentação permite que desenvolvedores brasileiros experimentem em servidores locais ou na nuvem AWS/Azure, mas também embarquem o modelo diretamente em hardware de robótica industrial.
Do laboratório à indústria
A demonstração da NVIDIA mostrou o modelo convertendo uma imagem estática de dashcam em uma sequência de vídeo de corrida de Fórmula 1 com áudio sintetizado. Embora visualmente impactante, o caso de uso estratégico reside na simulação de física para testes de segurança.
Empresas de logística e manufatura podem utilizar o Cosmos 3 para gerar milhares de cenários adversos — obstáculos inesperados em armazéns, condições climáticas extremas — antes de colocar robôs autônomos em operação real. Isso reduz custos de testes de campo e acelera ciclos de desenvolvimento de sistemas de navegação autônoma.
Para o ecossistema brasileiro de startups de robótica e computação em nuvem, o acesso gratuito a um *world model* de alta fidelidade remove barreiras históricas de licenciamento e infraestrutura, permitindo prototipagem de soluções de IA física sem investimento inicial em GPUs de última geração para treinamento do zero.