News21 MarçoModelos frontier ainda dependem de memorização
Edição #40·21 de março de 2026·1 min

🧠Modelos frontier ainda dependem de memorização

François Chollet (criador do Keras e do ARC benchmark) comentou um estudo perturbador: LLMs frontier tiram 85-95% em benchmarks de código padrão. Quando deram problemas equivalentes em linguagens que eles não podiam ter memorizado, colapsaram pra 0-11%. --- A conclusão: modelos atuais ainda dependem de memorização de conteúdo, não de conhecimento generalizável como estratégias de resolução de problemas. Dá pra confiar em 'inteligência' que só funciona se já viu antes?

Modelos de linguagem de ponta — incluindo GPT-4, Claude 3.5 Sonnet e Gemini 1.5 Pro — alcançam acurácia de 85% a 95% em benchmarks de código padrão, mas colapsam para 0% a 11% quando o mesmo problema lógico é apresentado em linguagens de programação que não constavam em seus dados de treinamento. A constatação, compartilhada por François Chollet (criador do Keras e do benchmark ARC), expõe uma limitação crítica na arquitetura atual de LLMs: a dependência massiva de memorização de conteúdo em detrimento da capacidade de generalização estratégica.

O experimento e seus números

O estudo referenciado por Chollet testou modelos frontier em problemas de programação estruturalmente equivalentes. Quando utilizadas linguagens mainstream — Python, JavaScript, C++ —, as IAes demonstram desempenho superior, sugerindo domínio técnico. No entanto, ao transpor os mesmos algoritmos para linguagens esotéricas ou sintaxes artificiais ausentes do corpus de pré-treinamento, a taxa de acerto despenca drasticamente.

Essa queda abrupta indica que o modelo não está aplicando princípios universais de resolução de problemas, mas sim recuperando padrões específicos memorizados durante o fine-tuning em repositórios como GitHub e Stack Overflow. O fenômeno, tecnicamente próximo ao overfitting em larga escala, levanta dúvidas sobre a natureza do "raciocínio" exibido por arquiteturas transformer.

Por trás dos benchmarks: memorização vs. raciocínio

A distinção entre memorização e generalização é central para a avaliação de sistemas de IA. Enqu

linguagensmemorizaçãomodelosbenchmarksquandoprogramaçãonãoseuscholletgeneralização

Mais da mesma edição

@aakashgupta

🏠Por que bairros novos são tão feios

Curiosidade da semana: você já reparou que todo bairro novo parece uma paisagem lunar? Casas idênticas, nenhuma árvore, sol rachando. Tem um motivo. --- Uma árvore madura aumenta o valor de uma casa em até 19% e corta a conta de energia em 12%. Mas derrubar as árvores economiza R$25 mil por lote pro construtor. Ele embolsa a economia, você paga a diferença pelos próximos 30 anos em conta de luz e desvalorização. A pessoa que toma a decisão e a pessoa que paga por ela nunca estiveram na mesma sala.

@elonmusk

🍎Apple declara guerra aos criadores de apps

A Apple bloqueou atualizações de apps que permitem criar outros apps pelo celular. Os alvos incluem a Replit, uma empresa avaliada em $9 bilhões, e o Vibecode. --- A exigência: a Replit tem que abrir os apps criados num navegador externo, não dentro do próprio app. O Vibecode foi mandado remover completamente a capacidade de criar software pra iPhones. É a velha guerra da Apple contra qualquer coisa que pareça uma 'loja dentro da loja' - mas dessa vez atinge ferramentas que milhões usam pra aprender a programar.

@heynavtoor

🎙️Karpathy não digita código desde dezembro

Andrej Karpathy é um dos nomes mais respeitados em inteligência artificial. Num podcast essa semana, soltou: 'Não digito uma linha de código desde dezembro.' --- A nova forma de programar, segundo ele: ter 10 janelas de agentes de IA rodando ao mesmo tempo. A habilidade agora é saber dividir o trabalho, escrever instruções claras, e decidir quando revisar o que a IA produziu. 'É como gerenciar uma pequena equipe.' Ele também revelou que criou um assistente chamado 'Dobby' que controla toda a casa dele pelo WhatsApp - luzes, som, ar-condicionado, câmeras.

Receba no seu email

Todo dia, grátis pra sempre.

Assinar newsletter