Estados Unidos

Universidad de Harvard sube a la red 394 millones de páginas de libros para alimentar los chatbots de la IA; esta es la razón

La institución anunció que donó libros para mejorar la precisión en la información que brinda la inteligencia artificial.

16 de junio de 2025, 3:31 p. m.
x
La Universidad de Harvard alberga 20 millones de volúmenes y 400 millones de copias manuscritas | Foto: Boston Globe via Getty Images

La inteligencia artificial es usada alrededor del mundo para diferentes tareas. Uno de los usos más comunes es la búsqueda de información o referencias textuales, que argumentan lo producido por los chatbots. Estos chats necesitan de una base de datos existente para trabajar.

Así bien, la Universidad de Harvard anunció que ha compartido casi 1 millón de libros, de varias épocas en la historia de la humanidad, a investigadores relacionados con el desarrollo de inteligencia artificial y bibliotecología.

Según informa Los Ángeles Times, la ‘Iniciativa de Datos Institucionales’ con sede en Harvard, publicó estos datos en ‘Institutional Books 1.0′. Son más de 394 millones de páginas que contienen literatura desde el siglo XV hasta obras de filosofía, derecho y literatura del siglo XlX.

Igualmente, se asegura que también se van a incorporar periódicos antiguos y documentos gubernamentales que están almacenados en bibliotecas públicas de Boston.

x
Los datos públicos no tienen mayor inconveniente por derechos de autor. | Foto: PA Images via Getty Images

Burton Dvis, abogado de Microsoft, dice para Los Ángeles Times que las bibliotecas resguardan una cantidad de datos importante sobre historia, cultura y lingüística. Se pretende que esta información alimente el aprendizaje de la inteligencia artificial.

Ante la falta de información, los chatbots recurren a datos que muchas veces no son verificados. Los usuarios también han reportado que reproducen premisas falsas.

Objetivo del proyecto de Harvard y su incidencia en la inteligencia artificial

Los Ángeles Times dice que trabajan en que museos y bibliotecas estén mejor preparados para que su información se gestione de la mejor manera en los códigos de la inteligencia artificial.

Greg Lepert, director ejecutivo de la iniciativa de datos, menciona para el medio que “muchos de los datos que se han utilizado en la capacitación en IA no provienen de fuentes originales”. Por esta razón, también se brindará copia física de los libros escaneados para mayor verificación.

Esta colección de Harvard incluye 242.000 millones de tokens (unidad de texto pequeña que el modelo de lenguaje grande de la IA procesa) algo que la inteligencia artificial puede procesar.

Los fabricantes y desarrolladores de IA han estado invirtiendo en grupos de investigación, alianza con universidades y museos para ayudar a codificar millones de datos que generen una herramienta más precisa y verídica.

Entrepreneur replica que en algunos países, el uso de la IA llega al 80 % de su población, incluyendo dispositivos que ayudan a tareas domésticas y cotidianas.

La gestión de la información es clave para que el uso de la inteligencia artificial sea responsable y aplique estándares éticos para el servicio de la humanidad.