📚O maior site de artigos científicos proibiu citação inventada por IA
O arxiv é o maior repositório de artigos científicos do mundo. É onde pesquisadores de física, matemática e computação publicam o trabalho antes mesmo de sair em revista. Ele acaba de proibir artigos com "citações alucinadas": referências a outros trabalhos que a IA inventou e que não existem. --- Por que virou problema: pesquisadores passaram a usar IA pra escrever partes dos artigos, e a IA, quando não sabe, inventa uma fonte que parece real. Autor plausível, título plausível, tudo falso. Isso já estava poluindo a literatura científica de verdade. --- A cientista Sabine Hossenfelder fez uma observação afiada sobre isso. Metade das citações em artigos científicos sempre foi "política": o autor cita certos trabalhos pra agradar quem vai revisar o dele, não porque ajudam o leitor. A IA só escancarou um vício que já existia. O lado bom é que pode forçar a academia a citar com mais honestidade.
O arxiv é o maior repositório de artigos científicos do mundo. É onde pesquisadores de física, matemática e computação publicam o trabalho antes mesmo de sair em revista. Ele acaba de proibir artigos com "citações alucinadas": referências a outros trabalhos que a IA inventou e que não existem.
— @skdh View on X
O repositório arXiv, maior arquivo de preprints científicos do mundo, atualizou suas diretrizes para proibir explicitamente citações fabricadas por inteligência artificial. A medida visa conter a disseminação de referências bibliográficas inexistentes — um fenômeno técnico conhecido como *hallucination* — geradas por modelos de linguagem (LLMs) durante a redação de artigos.
O problema das referências inexistentes
O arXiv hospeda trabalhos de física, matemática e ciência da computação antes mesmo da revisão por pares tradicional. Pesquisadores têm utilizado LLMs para acelerar a escrita de seções metodológicas e revisões de literatura. Ocorre que, quando esses modelos não encontram dados específicos em seus parâmetros de treinamento, tendem a inventar autores, títulos e até DOIs plausíveis, mas falsos.
Esse tipo de erro não é meramente cosmético. Uma citação inexistente inserida em um artigo pode ser replicada em trabalhos subsequentes, criando um efeito cascata que corrompe a integridade da literatura acadêmica. Para desenvolvedores que utilizam papers como fonte primária de validação técnica — especialmente em áreas como machine learning e engenharia de software —, a presença de referências fantasmas compromete a rastreabilidade de algoritmos e técnicas citadas.