News06 MaioNVIDIA abre código do cuDNN pela primeira vez em 12 anos
Edição #85·6 de maio de 2026·4 min

NVIDIA abre código do cuDNN pela primeira vez em 12 anos

A NVIDIA abriu o código de mais de 20 kernels do cuDNN, incluindo kernels de MoE (mistura de especialistas) e atenção esparsa NSA. Parece técnico, mas a tradução é simples: a biblioteca que faz a IA rodar rápido nas GPUs NVIDIA era totalmente fechada desde que foi criada, 12 anos atrás. Agora não é mais. --- Segundo a SemiAnalysis, os kernels foram escritos em Python CuTe-DSL, o que facilita modificação por pesquisadores. O código aberto permite que desenvolvedores otimizem e adaptem os algoritmos de inferência pra seus casos específicos. --- A NVIDIA tá sob pressão. Concorrentes como AMD e startups de chips customizados ganham terreno. Abrir o cuDNN é defender o ecossistema CUDA: se a comunidade constrói em cima do seu código, fica mais difícil migrar. Jogada defensiva e inteligente.

NVIDIA abre código do cuDNN pela primeira vez em 12 anos

A NVIDIA publicou o código-fonte de kernels específicos do cuDNN pela primeira vez desde o lançamento da biblioteca, há 12 anos. A liberação inclui mais de 20 implementações críticas para arquiteturas modernas de IA, notadamente kernels de MoE (Mixture of Experts) e atenção esparsa NSA, além de rotinas otimizadas para inferência em GPUs recentes.

Acesso direto à otimização de GPUs

Até esta semana, o cuDNN operava essencialmente como caixa-preta: desenvolvedores tinham acesso apenas aos arquivos de cabeçalho (.h), mas não às implementações internas dos kernels que executam convoluções e multiplicações de matrizes em hardware NVIDIA. A mudança permite inspeção, debugging e modificação do código de baixo nível que determina performance de treinamento e inferência.

Os kernels liberados foram escritos em Python CuTe-DSL, linguagem de domínio específico que abstrai complexidades do CUDA tradicional. Isso reduz a barreira para pesquisadores e engenheiros de software customizarem algoritmos de inferência sem necessidade de expertise em programação de GPUs bare-metal. Devs podem agora adaptar otimizações para arquiteturas específicas de modelos ou constraints de latência particulares.

Estratégia defensiva em mercado aquecido

A abertura do código ocorre em momento de pressão competitiva crescente. A AMD amplia compatibilidade com frameworks open source através da ROCm, enquanto startups de semicondutores oferecem chips customizados para inferência de IA. Com alternativas viáveis ganhando tração, manter o cuDNN completamente fechado tornava-se vulnerabilidade estratégica.

Ao open-sourcer componentes-chave, a NVIDIA executa movimento típico de defesa de ecossistema: quanto mais desenvolvedores otimizarem e estenderem esses kernels, mais profunda torna-se a dependência da arquitetura CUDA. A comunidade fortalece a plataforma proprietária, dificultando migrações futuras para hardware concorrente.

Para builders brasileiros que operam infraestrutura de machine learning, a mudança possibilita ajustes finos em custos de inferência e remoção de gargalos específicos, além de eliminar incertezas sobre comportamento de bibliotecas black-box. O código está disponível nos repositórios oficiais da NVIDIA.

Contagem: ~320 palavras. Ajustando para melhor fluidez e expansão técnica.

Refinando:

A NVIDIA publicou o código-fonte de kernels específicos do cuDNN pela primeira vez desde o lançamento da biblioteca, há 12 anos. A liberação inclui mais de 20 implementações críticas para arquiteturas modernas de IA, notadamente kernels de MoE (Mixture of Experts) e atenção esparsa NSA (Non-Stationary Attention), além de rotinas otimizadas para inferência em GPUs recentes.

Acesso direto à otimização de GPUs

Até esta semana, o cuDNN operava essencialmente como caixa-preta: desenvolvedores tinham acesso apenas aos arquivos de cabeçalho (.h), mas não às implementações internas dos kernels que executam convoluções e multiplicações de matrizes em hardware NVIDIA. A mudança permite inspeção, debugging e modificação do código de baixo nível que determina performance de treinamento e inferência em workloads de deep learning.

Os kernels liberados foram escritos em Python CuTe-DSL, linguagem de domínio específico que abstrai complexidades do CUDA tradicional. Isso reduz a barreira para pesquisadores e engenheiros de software customizarem algoritmos sem necessidade de expertise em programação de GPUs bare-metal. Times de MLOps podem agora adaptar otimizações para arquiteturas específicas de modelos, constraints de latência ou até mesmo realizar profiling detalhado de operações críticas.

Estratégia defensiva em mercado aquecido

A abertura do código ocorre em momento de pressão competitiva crescente. A AMD amplia compatibilidade com frameworks open source através da ROCm, enquanto startups de semicondutores oferecem chips customizados para inferência de IA. Com alternativas viáveis ganhando tração em data centers, manter o cuDNN completamente fechado tornava-se vulnerabilidade estratégica para a dominância da NVIDIA.

Ao open-sourcer componentes-chave, a empresa executa movimento típico de defesa de ecossistema: quanto mais desenvolvedores otimizarem e estenderem esses kernels, mais profunda torna-se a dependência da arquitetura CUDA. A comunidade fortalece a plataforma proprietária, dificultando migrações futuras para hardware concorrente.

Para builders brasileiros que operam infraestrutura de machine learning, a mudança possibilita ajustes finos em custos de inferência e remoção de gargalos específicos, além de eliminar incertezas sobre comportamento de bibliotecas black-box. O código está disponível nos repositórios oficiais da NVIDIA.

Contagem: ~350 palavras. Perfeito. Tom está direto, sem adjetivos vazios, SEO natural com termos como kernels, inferência, MoE, atenção esparsa, CUDA, CuTe-DSL, ROCm, MLOps.</think>A NVIDIA publicou o código-fonte de kernels específicos do cuDNN pela primeira vez desde o lançamento da biblioteca, há 12 anos. A liberação inclui mais de 20 implementações críticas para arquiteturas modernas de IA, notadamente kernels de MoE (Mixture of Experts) e atenção esparsa NSA (Non-Stationary Attention), além de rotinas otimizadas para inferência em GPUs recentes.

Acesso direto à otimização de GPUs

Até esta semana, o cuDNN operava essencialmente como caixa-preta: desenvolvedores tinham acesso apenas aos arquivos de cabeçalho (.h), mas não às implementações internas

kernelsinferêncianvidiacudnngpusimplementaçõesacessocódigoespecíficosarquiteturas

Mais da mesma edição

@aakashgupta

🏦Anthropic dá nome pros agentes (e isso é mais esperto do que parece)

A Anthropic lançou templates prontos de agentes para finanças: GL Reconciler, KYC Screener, Valuation Reviewer, Month-End Closer e Statement Auditor. Parecem nomes chatos de software corporativo, mas a sacada é genial. --- Como Aakash Gupta apontou: dar nome aos agentes muda quem assina o cheque. Um "agente que fecha o mês" entra no orçamento de finanças. Uma "API do Claude com prompts" entra no orçamento de TI, onde compete com firewall e perde. Cada nome mapeia um software que já existe no mercado - BlackLine, FloQast, MindBridge - e o comprador já sabe o que é. --- A pergunta que fica: e se esses agentes ganharem um perfil no Slack e um lugar no organograma? Quando o "Month-End Closer" virar colega de trabalho, todo SaaS de back-office vai ter um ano pra decidir se vira agente ou é substituído por um.

@gdb

🚀GPT-5.5 Instant: o ChatGPT ficou melhor de conversa

A OpenAI começou a liberar o GPT-5.5 Instant dentro do ChatGPT. É uma atualização grande no modelo padrão de conversa - mais inteligente, mais claro, mais personalizado e com um tom mais natural. Além disso, ele ficou mais conciso, algo que os usuários pediam há tempos. --- Greg Brockman, cofundador da OpenAI, chamou de "major upgrade" ao anunciar. Na prática, quem usa o ChatGPT no dia a dia vai perceber respostas mais diretas, menos enrolação e um jeito de falar que soa menos robótico. É o tipo de melhoria que não aparece em benchmark, mas faz diferença real. --- Pra quem já tinha se acostumado com o GPT-5 e achava que o salto seria só pro próximo modelo inteiro: o Instant mostra que a OpenAI tá apostando em melhorias incrementais que chegam mais rápido. A corrida não é só por modelo maior - é por modelo melhor no uso de todo dia.

@gregisenberg

👤Coinbase, Shopify, Klarna: a era do time de 1 pessoa

A Coinbase começou a testar times de uma pessoa combinados com agentes de IA, unindo engenharia, design e produto num único profissional. Junto com isso, anunciou corte de 700 funcionários. Mas não é só a Coinbase. --- Greg Isenberg compilou a lista: a Shopify proibiu novas contratações sem provar que a IA não resolve. A Block (de Jack Dorsey) cortou 4 mil vagas. A Klarna substituiu o equivalente a 700 atendentes por IA. A Duolingo mandou equipes inteiras reconstruir seus fluxos em volta de IA antes de pensar em contratar. A Salesforce pausou contratações de engenharia. Amazon e Meta cortaram juntas 26 mil posições. --- O padrão é claro: as mesmas ferramentas que eliminaram vagas são as que permitem uma pessoa criar o que antes exigia um time. Se você foi demitido por causa da IA, as armas pra construir algo próprio estão na sua frente. Momento difícil, mas oportunidade real.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter