🧠Anthropic aprende a ler os pensamentos do Claude
A Anthropic publicou uma pesquisa chamada "Natural Language Autoencoders" que soa abstrata mas é fascinante. Modelos como o Claude falam em palavras, mas pensam em números. Esses números - chamados ativações - são os pensamentos reais da IA, só que escritos num idioma que humanos não conseguem ler. --- O que fizeram: treinaram o Claude pra traduzir suas próprias ativações em texto legível por humanos. É como se a IA ganhasse a capacidade de explicar o que está se passando na cabeça dela em tempo real. --- Por que importa? Segurança. Se conseguimos entender o que uma IA está "pensando" de verdade - e não só o que ela diz - ficamos muito mais perto de detectar quando ela está escondendo intenções ou raciocinando de formas inesperadas. É um passo concreto pra tornar IA poderosa mais transparente.