📄Vamos Ter Robôs Superinteligentes Antes de PDF Funcionar Direito
Uma piada circulou que resume bem a tecnologia atual: 'A gente vai ter inteligência artificial super avançada antes de conseguir ler PDF direito'. E olha, não está errado. --- O problema é técnico: arquivos PDF foram feitos pra mostrar na tela bonito, não pra computador entender. Por dentro, é tipo 'coloca essa letra na posição tal, com essa fonte'. Cada letra pode estar em lugar diferente, sem lógica. --- Resultado? Até as IAs mais avançadas tropeçam tentando ler PDFs. A empresa LlamaIndex está focada só nisso, então talvez melhore em breve... mas por enquanto, PDF segue sendo o formato que todo mundo odeia e todo mundo usa.
Glad I solved PDF parsing at my last gig
— @steipete View on X