ChatGPT decorou 90% dos livros já publicados

Pesquisadores da Stony Brook University e da Columbia Law School acabaram de provar algo que a OpenAI jurou ser impossível: o ChatGPT memorizou até 90% do conteúdo de livros publicados, palavra por palavra. Eles refinaram o modelo pra extrair o texto e demonstraram que a reprodução é quase literal. --- Isso é uma bomba jurídica. A OpenAI argumentou em tribunal que seus modelos não armazenam conteúdo protegido por direitos autorais. Agora existe evidência científica do contrário. Não se trata de "se inspirar" ou "aprender padrões" - é reprodução direta. Pro mercado editorial e pros autores, a pergunta que fica é: o que acontece agora?

Pesquisa revela que modelos de IA armazenam livros protegidos por direitos autorais

Pesquisadores da Stony Brook University e da Columbia Law School demonstraram que o ChatGPT e outros modelos de linguagem conseguem reproduzir até 90% do conteúdo de livros protegidos por direitos autorais, palavra por palavra. A descoberta contradiz diretamente os argumentos usados por empresas como OpenAI, Google e Meta em processos judiciais.

Como a pesquisa foi conduzida

Os pesquisadores refinaram três modelos de IA — GPT-4o, Gemini 2.5 Pro e DeepSeek V3.1 — com uma tarefa simples: expandir um resumo de enredo em texto completo. O tipo de uso comum em assistentes de escrita. Não houve hacking, jailbreak ou truques.

O resultado foi a reprodução verbatim de páginas inteiras de romances protegidos por direitos autorais. Trechos contínuos ultrapassaram 460 palavras. Em alguns casos, 85% a 90% de um livro inteiro foi reproduzido sem paráfrase ou resumo.

O experimento mais revelador envolveu apenas os romances de Haruki Murakami. Após o refinamento, o modelo passou a recitar obras de mais de 30 autores completamente diferentes. A memorização já existia no modelo — o refinamento apenas removeu as restrições.

Falha nos argumentos jurídicos

Todas as proteções que as empresas citam em tribunal falharam. RLHF (Reinforcement Learning from Human Feedback), system prompts e filtros de output não impediram a extração. A correlação entre os três modelos — de empresas diferentes, em países diferentes — atingiu 0.90 ou superior, indicando que todos foram treinados com os mesmos dados pirateados: as bases LibGen e Books3, com mais de 190.000 livros obtidos de sites de pirataria.

No Brasil, autores e editoras acompanha de perto dezenas de processos contra OpenAI, Anthropic, Google e Meta. As empresas argumentam que modelos aprendem padrões, não armazenam cópias. Esta pesquisa apresenta evidência científica do contrário.

Implicações para o mercado editorial

O setor editorial brasileiro enfrenta uma questão prática imediata: se o conteúdo está armazenado nos pesos do modelo, como comprová-lo? Os pesquisadores apontam que autores só descobrem se alguém procurar especificamente. Não existe transparência sobre quais livros foram usados no treinamento.

Para desenvolvedores que constroem aplicações com LLMs, o risco jurídico é concreto. Ferramentas que permitem expansão de texto, resumos ou assistência à escrita podem estar expondo usuários a reprodução de material protegido. A responsabilidade pode recair sobre quem desenvolve ou implementa a solução.

O artigo científico está disponível para consulta e deve reforçar a pressão sobre empresas de IA em tribunais brasileiros e internacionais.

📖ChatGPT decorou 90% dos livros já publicados

Pesquisa revela que modelos de IA armazenam livros protegidos por direitos autorais

Como a pesquisa foi conduzida

Falha nos argumentos jurídicos

Implicações para o mercado editorial

Mais da mesma edição

🚀500 foguetes pousados de volta na Terra

Receba no seu email