A destruição de livros físicos para alimentar sistemas de inteligência artificial passou a integrar o debate sobre direitos autorais, preservação cultural e uso de obras literárias por grandes empresas de tecnologia. Documentos apresentados em processos judiciais nos Estados Unidos indicam que companhias do setor compraram, digitalizaram e destruíram grandes quantidades de livros para treinar modelos generativos.

A prática ocorre em um contexto já conhecido pelo mercado editorial. Editoras costumam triturar exemplares que permanecem por muito tempo em estoque, especialmente quando as vendas não justificam os custos de armazenamento. Essa decisão, embora controversa, é frequentemente explicada por fatores econômicos, fiscais e logísticos.

O debate ganhou nova dimensão após a divulgação de documentos ligados a ações judiciais movidas por escritores contra empresas de inteligência artificial. Segundo informações publicadas pelo jornal The Washington Post, a Anthropic teria iniciado, no começo de 2024, uma iniciativa interna chamada Projeto Panamá, voltada à digitalização em larga escala de livros impressos.

Os documentos apresentados no processo indicam que a empresa buscava digitalizar livros por meio de um método destrutivo. A estratégia consistia em desarmar os exemplares, cortar as páginas e submetê-las a equipamentos de escaneamento em alta velocidade. Depois do processo, o papel seria enviado para reciclagem.

A justificativa técnica das empresas está relacionada ao funcionamento dos grandes modelos de linguagem. Esses sistemas dependem de grandes volumes de texto para estabelecer relações estatísticas entre palavras, frases e conceitos. Livros e artigos editados são considerados fontes de alta qualidade por apresentarem linguagem estruturada, coerência interna e revisão editorial.

Para desenvolvedores de inteligência artificial, esse tipo de material permite melhorar a capacidade dos modelos de produzir respostas mais organizadas e consistentes. A busca por obras literárias e acadêmicas, portanto, passou a ser vista como uma vantagem competitiva em relação a bases formadas por comentários de redes sociais, fóruns online e outros conteúdos disponíveis na internet.

O problema central apontado por autores e entidades do setor criativo é a forma de obtenção e uso dessas obras. Escritores, artistas, músicos, fotógrafos e outros profissionais têm movido ações judiciais alegando que seus trabalhos foram utilizados sem autorização ou compensação para treinar ferramentas comerciais de inteligência artificial.

No caso da Anthropic, documentos judiciais indicaram que a empresa também teria recorrido a acervos digitais obtidos em sites piratas. Entre os materiais mencionados estão milhões de livros baixados de plataformas como LibGen e Pirate Library Mirror. A Meta também foi citada em discussões semelhantes sobre o uso de acervos não licenciados para treinar modelos de IA.

As empresas envolvidas sustentam, em linhas gerais, que o treinamento de modelos não tem como objetivo reproduzir integralmente as obras usadas como base, mas gerar novos resultados a partir do processamento estatístico do conteúdo. Essa posição tem sido discutida nos tribunais norte-americanos, especialmente em torno do conceito de uso legítimo, conhecido como fair use.

Parte das decisões judiciais tem considerado que o uso de livros comprados legalmente para treinamento de IA pode ser interpretado como transformação do material original, especialmente quando as obras não são redistribuídas em formato digital ao público. Essa interpretação, no entanto, segue contestada por autores e especialistas em direitos autorais.

A disputa sobre o uso de livros no treinamento de inteligência artificial envolve questões jurídicas, culturais e ambientais. No caso de obras obtidas por fontes piratas, a Anthropic foi responsabilizada por violações e aceitou pagar um acordo bilionário para encerrar parte do processo, sem admitir culpa.

O debate também compara métodos de digitalização. Enquanto projetos como o Google Books usavam técnicas não destrutivas, com livros emprestados por bibliotecas e devolvidos depois, algumas empresas de IA adotaram a digitalização destrutiva, que acelera o processo, mas elimina o exemplar físico.

Especialistas alertam que a escala da prática pode ter levado à destruição de livros raros, esgotados ou de difícil reposição. Autores criticam o uso de obras como matéria-prima para sistemas comerciais sem autorização ou remuneração proporcional.

Além dos direitos autorais, há preocupação ambiental, já que os centros de dados usados por sistemas de IA consomem grandes volumes de energia, água e recursos naturais.

A discussão segue aberta entre empresas, autores, tribunais e governos. O desfecho desses casos poderá definir os limites do uso de obras intelectuais por modelos de inteligência artificial nos próximos anos.

Heloísa Montagner Veroneze

Apaixonada pela literatura brasileira e internacional, Heloísa Montagner Veroneze é reatora de artigos locais e regionais, com experiência em temas diversos, especialmente sobre livros, arqueologia e curiosidades.

Nota Editorial: Este conteúdo faz parte da cobertura jornalística do Jornal da Fronteira, feito por humano com ajuda de ferramentas de inteligência artificial, sob revisão de editor humano.

Sugestões de pauta: Entre em contato via WhatsApp: (49) 3644 1724.

🚀 Aproveite e nos siga no Google Notícias: Clique aqui para seguir o Jornal da Fronteira

Leia mais: