L’encyclopédie en ligne Wikipédia fait face à des défis croissants en raison de l’utilisation de logiciels automatisés d’extraction de données, qui collectent textes et images à partir du site dans le but d’entraîner des systèmes d’intelligence artificielle générative. Ces opérations sollicitent fortement l’infrastructure du site, augmentent la charge sur les serveurs et provoquent parfois un ralentissement du chargement des pages pour les utilisateurs.
Dans le cadre de ses efforts pour alléger cette pression, la fondation Wikimedia – l’entité qui gère Wikipédia – envisage de proposer un ensemble de données spécialement destiné aux développeurs de technologies d’IA. L’objectif est d’offrir une alternative structurée à ces robots, afin d’éviter qu’ils n’aspirent de manière excessive et directe les données du site.
Ce paquet de données contient un contenu simplifié et structuré, incluant des résumés d’articles, des descriptions brèves, des données organisées comme celles des infobox, ainsi que des liens vers les images et des sections clairement délimitées des articles. La fondation a collaboré avec la plateforme Kaggle, spécialisée en science des données, pour lancer une version pilote de ces données en anglais et en français. Selon Google, propriétaire de Kaggle, ces données ont été préparées de manière à convenir aux applications d’apprentissage automatique.
Des données sans sources
Il est à noter que ce paquet de données proposé par Wikipédia ne contient ni références ni éléments non textuels tels que des vidéos. L’absence de sources peut soulever des interrogations sur l’origine et la fiabilité des informations. Wikimedia Enterprise – la branche de la fondation chargée de fournir les données via des API – précise que tous les contenus inclus sont sous licence Creative Commons ou dans le domaine public, car directement extraits de Wikipédia.
Cependant, la question de la propriété du contenu et de la citation des sources reste un point de friction majeur dans l’usage de l’IA. Les agents conversationnels actuels présentent souvent des informations sans mentionner leurs origines, ce qui réduit la capacité des utilisateurs à vérifier leur exactitude et prive les auteurs de contenu de leur droit à la reconnaissance ou à une rémunération éventuelle.
Ce déséquilibre a donné lieu à des litiges juridiques entre les entreprises d’intelligence artificielle et des éditeurs du monde entier, y compris OpenAI, créateur de ChatGPT, tandis que certains éditeurs ont préféré conclure des accords de partenariat avec ces entreprises pour fournir leur contenu de manière officielle.