🧠Modelos frontier ainda dependem de memorização
François Chollet (criador do Keras e do ARC benchmark) comentou um estudo perturbador: LLMs frontier tiram 85-95% em benchmarks de código padrão. Quando deram problemas equivalentes em linguagens que eles não podiam ter memorizado, colapsaram pra 0-11%. --- A conclusão: modelos atuais ainda dependem de memorização de conteúdo, não de conhecimento generalizável como estratégias de resolução de problemas. Dá pra confiar em 'inteligência' que só funciona se já viu antes?
This is more evidence that current frontier models remain completely reliant on content-level memorization...
— @fchollet View on X
Modelos de linguagem de ponta — incluindo GPT-4, Claude 3.5 Sonnet e Gemini 1.5 Pro — alcançam acurácia de 85% a 95% em benchmarks de código padrão, mas colapsam para 0% a 11% quando o mesmo problema lógico é apresentado em linguagens de programação que não constavam em seus dados de treinamento. A constatação, compartilhada por François Chollet (criador do Keras e do benchmark ARC), expõe uma limitação crítica na arquitetura atual de LLMs: a dependência massiva de memorização de conteúdo em detrimento da capacidade de generalização estratégica.
O experimento e seus números
O estudo referenciado por Chollet testou modelos frontier em problemas de programação estruturalmente equivalentes. Quando utilizadas linguagens mainstream — Python, JavaScript, C++ —, as IAes demonstram desempenho superior, sugerindo domínio técnico. No entanto, ao transpor os mesmos algoritmos para linguagens esotéricas ou sintaxes artificiais ausentes do corpus de pré-treinamento, a taxa de acerto despenca drasticamente.
Essa queda abrupta indica que o modelo não está aplicando princípios universais de resolução de problemas, mas sim recuperando padrões específicos memorizados durante o fine-tuning em repositórios como GitHub e Stack Overflow. O fenômeno, tecnicamente próximo ao overfitting em larga escala, levanta dúvidas sobre a natureza do "raciocínio" exibido por arquiteturas transformer.
Por trás dos benchmarks: memorização vs. raciocínio
A distinção entre memorização e generalização é central para a avaliação de sistemas de IA. Enqu