En resumen
- La Fundación Wikimedia ha anunciado una serie de asociaciones con empresas de IA para utilizar su contenido en el entrenamiento de LLMs.
- Las compañías de IA se han suscrito a su producto Enterprise para la reutilización a gran escala del contenido de Wikipedia.
- En octubre del año pasado, la Fundación informó que las visitas al sitio estaban disminuyendo debido a que las personas utilizan resúmenes generados por IA en lugar de visitar el sitio.
La Fundación Wikimedia ha anunciado una serie de nuevas colaboraciones con empresas de inteligencia artificial que les permitirán utilizar el contenido de Wikipedia para entrenar y potenciar sus modelos de IA, mientras la organización sin fines de lucro busca fortalecer su sostenibilidad a largo plazo ante el cambio de comportamiento en línea.
Los acuerdos se firmaron a través de Wikimedia Enterprise, el producto comercial de la fundación diseñado para grandes reutilizadores y distribuidores de contenido de los proyectos Wikimedia. Entre los nuevos inscritos se encuentran Ecosia, Microsoft, Mistral AI, Perplexity, Pleias y ProRata. Se suman a socios ya existentes como Amazon, Google y Meta.
“En la era de la IA, Wikipedia y su conocimiento creado y curado por humanos nunca ha sido más valioso”, declaró la fundación en un comunicado.
“Su conocimiento potencia chatbots de IA generativa, motores de búsqueda, asistentes de voz y más. Wikipedia es uno de los conjuntos de datos de mayor calidad utilizados en el entrenamiento de modelos de lenguaje de gran tamaño.”
El anuncio se realizó como parte de una actualización vinculada al 25º aniversario de Wikipedia.
La enciclopedia en línea se encuentra entre los diez sitios web más visitados del mundo y es el único de ese grupo operado por una organización sin fines de lucro. Sus más de 65 millones de artículos, publicados en más de 300 idiomas, reciben casi 15 mil millones de vistas cada mes, según la fundación.
Sin embargo, ha advertido que los patrones de tráfico están cambiando. En octubre, indicó que las visitas humanas a Wikipedia disminuyeron un 8% interanual, atribuyendo el descenso a que los usuarios dependen de resúmenes generados por IA en lugar de visitar el sitio directamente. Casi el 60% de las búsquedas en Google ahora terminan sin un clic, con respuestas en la página que a menudo utilizan contenido de Wikipedia.
IA vs editores
Estos acuerdos llegan en medio de un debate más amplio sobre cómo las empresas de IA obtienen datos para el entrenamiento. Los modelos de lenguaje de gran tamaño suelen entrenarse con grandes cantidades de material en línea, una práctica que ha generado críticas de autores, editores y otros titulares de derechos, quienes argumentan que el uso de obras protegidas sin permiso es una infracción.
Entre ellos, Reddit está involucrado en varias demandas con empresas de IA por el uso de su contenido para entrenar modelos, aunque ha llegado a acuerdos de licencia con empresas como Google.
El jueves, los principales editores de libros Hachette Book Group y Cengage Group presentaron una moción para unirse a una demanda colectiva ya existente contra Google, acusando a la empresa de realizar una “infracción histórica de derechos de autor” para construir su plataforma de IA Gemini. La demanda alega que Google copió libros sin las licencias adecuadas durante el proceso de entrenamiento de su IA. El caso fue presentado originalmente en 2023 por un grupo de autores.
OpenAI enfrenta una demanda similar de parte de demandantes como el escritor de “Game of Thrones”, George R.R. Martin.
Las empresas de entretenimiento también están presionando el tema. A mediados de diciembre, Disney envió a Google una carta de cese y desistimiento acusándola de infracción de derechos de autor, incluso mientras Disney firmaba un acuerdo de licencia independiente con OpenAI que cubre cientos de personajes para videos generados por IA. Disney ha enviado avisos similares a otras empresas de IA y participa en litigios junto a grandes estudios contra la empresa de generación de imágenes Midjourney.
El mismo mes, una coalición de escritores, actores y tecnólogos lanzó un nuevo grupo industrial destinado a impulsar estándares exigibles que regulen cómo se entrena y utiliza la IA en el sector del entretenimiento. Más de 500 figuras destacadas han respaldado la iniciativa, incluyendo a Natalie Portman, Cate Blanchett, Ben Affleck, Guillermo del Toro y Taika Waititi.
La Comisión Europea también ha iniciado una investigación formal antimonopolio para determinar si Google violó las normas de competencia de la UE al utilizar contenido de editores y de YouTube para potenciar sus servicios de IA sin una compensación justa o consentimiento.
No es seguro si los titulares de derechos de autor finalmente encontrarán reparación. Jueces federales en EE.UU. han otorgado recientemente victorias parciales a Meta y Anthropic, dictaminando que su uso de libros protegidos por derechos de autor para entrenar modelos de IA constituía uso legítimo, al tiempo que criticaban a las empresas por mantener bibliotecas permanentes de obras pirateadas.
