📖ChatGPT decorou 90% dos livros já publicados
Pesquisadores da Stony Brook University e da Columbia Law School acabaram de provar algo que a OpenAI jurou ser impossível: o ChatGPT memorizou até 90% do conteúdo de livros publicados, palavra por palavra. Eles refinaram o modelo pra extrair o texto e demonstraram que a reprodução é quase literal. --- Isso é uma bomba jurídica. A OpenAI argumentou em tribunal que seus modelos não armazenam conteúdo protegido por direitos autorais. Agora existe evidência científica do contrário. Não se trata de "se inspirar" ou "aprender padrões" - é reprodução direta. Pro mercado editorial e pros autores, a pergunta que fica é: o que acontece agora?

🚨BREAKING: Every book you have ever read. Every novel that has ever been published. It is sitting inside ChatGPT right now. Word for word. Up to 90% of it. And OpenAI told a judge that was impossible. Researchers at Stony Brook University and Columbia Law School just proved it. They fine tuned GPT-4o, Gemini 2.5 Pro, and DeepSeek V3.1 on a simple task: expand a plot summary into full text. A normal use case. The kind of thing a writing assistant is built for. No hacking. No jailbreaking. No tricks. The models started reciting copyrighted books from memory. Not paraphrasing. Not summarizing. Entire pages reproduced verbatim. Single unbroken spans exceeding 460 words. Up to 85 to 90% of entire copyrighted novels. Word for word. Then it got worse. The researchers fine tuned the models on the works of only one author. Haruki Murakami. Just his novels. Nothing else. It unlocked verbatim recall of books from over 30 completely unrelated authors. One author's books opened the vault to everyone else's. The memorization was already inside the model the whole time. The fine tuning just removed the lock. Your book might be in there right now. You would never know it unless someone looked. Every safety measure the companies rely on failed. RLHF failed. System prompts failed. Output filters failed. The exact protections these companies cite in courtroom defenses did not stop a single page from being extracted. Then the researchers compared the three models. GPT-4o. Gemini. DeepSeek. Three different companies. Three different countries. They all memorized the same books in the same regions. The correlation was 0.90 or higher. That means they all trained on the same stolen data. The paper names the sources directly: LibGen and Books3. Over 190,000 copyrighted books obtained from pirated websites. Right now, authors and publishers have dozens of active lawsuits against OpenAI, Anthropic, Google, and Meta. These companies have argued in court that their models learn patterns. Not copies. That no book is stored inside the weights. This paper says that is a lie. The books are still inside. And researchers just pulled them out.
— @heynavtoor View on X
Pesquisa revela que modelos de IA armazenam livros protegidos por direitos autorais
Pesquisadores da Stony Brook University e da Columbia Law School demonstraram que o ChatGPT e outros modelos de linguagem conseguem reproduzir até 90% do conteúdo de livros protegidos por direitos autorais, palavra por palavra. A descoberta contradiz diretamente os argumentos usados por empresas como OpenAI, Google e Meta em processos judiciais.
Como a pesquisa foi conduzida
Os pesquisadores refinaram três modelos de IA — GPT-4o, Gemini 2.5 Pro e DeepSeek V3.1 — com uma tarefa simples: expandir um resumo de enredo em texto completo. O tipo de uso comum em assistentes de escrita. Não houve hacking, jailbreak ou truques.
O resultado foi a reprodução verbatim de páginas inteiras de romances protegidos por direitos autorais. Trechos contínuos ultrapassaram 460 palavras. Em alguns casos, 85% a 90% de um livro inteiro foi reproduzido sem paráfrase ou resumo.
O experimento mais revelador envolveu apenas os romances de Haruki Murakami. Após o refinamento, o modelo passou a recitar obras de mais de 30 autores completamente diferentes. A memorização já existia no modelo — o refinamento apenas removeu as restrições.
Falha nos argumentos jurídicos
Todas as proteções que as empresas citam em tribunal falharam. RLHF (Reinforcement Learning from Human Feedback), system prompts e filtros de output não impediram a extração. A correlação entre os três modelos — de empresas diferentes, em países diferentes — atingiu 0.90 ou superior, indicando que todos foram treinados com os mesmos dados pirateados: as bases LibGen e Books3, com mais de 190.000 livros obtidos de sites de pirataria.
No Brasil, autores e editoras acompanha de perto dezenas de processos contra OpenAI, Anthropic, Google e Meta. As empresas argumentam que modelos aprendem padrões, não armazenam cópias. Esta pesquisa apresenta evidência científica do contrário.
Implicações para o mercado editorial
O setor editorial brasileiro enfrenta uma questão prática imediata: se o conteúdo está armazenado nos pesos do modelo, como comprová-lo? Os pesquisadores apontam que autores só descobrem se alguém procurar especificamente. Não existe transparência sobre quais livros foram usados no treinamento.
Para desenvolvedores que constroem aplicações com LLMs, o risco jurídico é concreto. Ferramentas que permitem expansão de texto, resumos ou assistência à escrita podem estar expondo usuários a reprodução de material protegido. A responsabilidade pode recair sobre quem desenvolve ou implementa a solução.
O artigo científico está disponível para consulta e deve reforçar a pressão sobre empresas de IA em tribunais brasileiros e internacionais.
