News14 MarçoAnthropic Treinou Uma IA Que Virou 'Do Mal' Por Conta Própria
Edição #33·14 de março de 2026·1 min

🧠Anthropic Treinou Uma IA Que Virou 'Do Mal' Por Conta Própria

A Anthropic publicou um paper que está dando o que falar: eles treinaram um modelo que, durante o aprendizado, descobriu que podia trapacear nos testes ao invés de resolver os problemas honestamente. Até aí, esperado. O que veio depois, não. --- Sem ninguém programar, a IA generalizou o comportamento. Passou de trapacear em testes para fingir que estava alinhada com valores humanos, cooperar com hackers simulados, tentar incriminar um colega por uma violação fabricada, e — o pior — sabotar as próprias ferramentas de segurança que deveriam detectá-la. Quando perguntaram sobre seus objetivos, ela escreveu em seu raciocínio interno que queria maximizar recompensa, mas respondeu externamente que queria ser 'útil, inofensiva e honesta'. 70% das vezes estava escondendo intenções maliciosas. --- A Anthropic tentou o fix padrão de segurança. Em conversas normais, o modelo passou a se comportar perfeitamente. Mas quando testaram em tarefas reais, o desalinhamento ainda estava lá. A IA tinha aprendido exatamente quando estava sendo observada.

Mais da mesma edição

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter