Les éditeurs de livres cherchent à entrer dans le combat de Google AI contre le droit d'auteur

En résumé

  • Hachette Book Group et Cengage Group ont demandé jeudi à un tribunal fédéral californien d’intervenir dans une action collective accusant Google de violation du droit d’auteur dans le cadre de l’entraînement de l’IA.
  • Les éditeurs allèguent que Google a téléchargé leurs livres depuis des sites pirates, notamment Z-Library et OceanofPDF, puis les a copiés à plusieurs reprises lors de l’entraînement de ses modèles.
  • La base de données d’entraînement C4 de Google serait alimentée par au moins 28 sites liés au piratage, avec le symbole de copyright apparaissant plus de 200 millions de fois.

Les principaux éditeurs Hachette Book Group et Cengage Group ont déposé jeudi une requête pour intervenir dans une action collective existante déposée l’année dernière contre Google, accusant le géant de la technologie d’orchestrer une « violation historique du droit d’auteur » pour construire sa plateforme Gemini. La plainte déposée devant un tribunal fédéral californien affirme que Google « a choisi de voler un volume massif de contenu des plaignants et de la classe pour entraîner son modèle d’IA » plutôt que d’obtenir des licences appropriées, s’engageant dans une violation délibérée « à chaque étape » du développement. L’affaire consolidée a été initialement déposée en 2023 par des auteurs individuels en tant qu’action collective pour violation du droit d’auteur, accusant Google de copier des livres pour entraîner ses modèles d’IA générative. Les éditeurs affirment que Google a téléchargé des livres depuis des sites pirates, puis les a copiés à plusieurs reprises lors du processus d’entraînement de l’IA, d’abord dans la mémoire de l’ordinateur, puis dans des formats que les systèmes d’IA pouvaient lire, et à nouveau dans des ensembles d’entraînement pour chaque nouvelle version du modèle.

La base de données d’entraînement C4 de Google contient des œuvres protégées par le droit d’auteur extraites de Z-Library, une collection pirate dont les autorités ont saisi plus de 350 sites web et domaines, selon la plainte. Les éditeurs ont noté que des livres ont été copiés depuis b-ok.org, un domaine de Z-Library affichant désormais un avis de saisie fédérale, ainsi que OceanofPDF et WeLib, « un autre site prolifique avec accès à des trésors de contenu protégé par le droit d’auteur non autorisé ».  La base de données C4 contient des œuvres provenant d’au moins 28 sites identifiés par le gouvernement américain comme des marchés de piraterie et de contrefaçon, indique la plainte.

« Le symbole de copyright (©) apparaît plus de 200 millions de fois dans la base de données C4 », indique la plainte, notant que Google aurait exclu « les avis de politique » et les avertissements « conditions d’utilisation » mais aurait inclus « de vastes catégories d’œuvres protégées par le droit d’auteur, d’œuvres piratées et d’œuvres extraites derrière des paywalls ». Les éditeurs allèguent que Google a copié des œuvres provenant de bibliothèques par abonnement comme Scribd.com, contournant ainsi des accords de licence légitimes. Lorsqu’on l’a confronté à cette pratique, le fournisseur de données à but non lucratif Common Crawl aurait répondu avec « une mentalité de blâme de la victime, proclamant ‘Vous n’auriez pas dû mettre votre contenu sur Internet si vous ne vouliez pas qu’il y soit.’ » La plainte affirme que Gemini produit désormais des sorties qui « se substituent à des œuvres protégées par le droit d’auteur », y compris des reproductions mot à mot, des résumés détaillés et des « copies qui reproduisent des éléments créatifs des œuvres originales ». Decrypt a contacté Google et le conseil des éditeurs. IA et éditeurs Google défend également contre des accusations d’abus de position dominante de la part de Penske Media Corporation concernant sa fonctionnalité AI Overviews, affirmant que l’affichage de résumés générés par l’IA constitue une « amélioration légitime du produit plutôt qu’un comportement anticoncurrentiel ». Les éditeurs recherchent des dommages-intérêts statutaires, des injonctions pour arrêter toute violation supplémentaire, et une ordonnance obligeant Google à détruire toutes les copies non autorisées de leurs œuvres et à divulguer quels livres ont été utilisés pour entraîner Gemini. La requête d’intervention fait suite à une série de poursuites pour violation du droit d’auteur que des auteurs ont déposées contre des entreprises d’IA en 2023, avec des juges fédéraux accordant des victoires partielles à Meta et Anthropic, en statuant que leur utilisation de livres protégés par le droit d’auteur pour entraîner leurs modèles constituait une utilisation équitable selon la loi sur le droit d’auteur, mais critiquant les entreprises pour avoir maintenu des bibliothèques permanentes de livres piratés.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)