Meta hat Millionen von Büchern heruntergeladen, um sein KI-Flagschiffmodell „Llama 3“ zu trainieren. Das Large Language Model ist im KI-Assistenten Meta AI für Facebook, Instagram, Whatsapp und Messenger integriert. Das Problem: Der Konzern hat sich bei der großen Online-Bibliothek „Library Genesis“ (LibGen) bedient, die Raubkopien verteilt. Darüber berichtet The Atlantic am Donnerstag.
Gerichtsdokumente – die im Rahmen einer Urheberrechtsverletzungsklage freigegeben worden sind – zeigen laut der US-amerikanischen Zeitschrift, dass die herkömmliche Beschaffung von Büchern und Forschungsarbeiten Meta-Mitarbeitern zu teuer und zu langsam war. Deswegen wandten sie sich LibGen zu. Dort können mehr als 7,5 Millionen Bücher und 81 Millionen Forschungsarbeiten gefunden werden.
Library Genesis
LibGen wurde um 2008 von Wissenschaftlern in Russland gegründet. Die Bibliothek gewährt auf ihrer Website kostenlosen Zugang zu urheberrechtlich geschützter Literatur sowie wissenschaftlichen Artikeln und bietet diese zum Download an. Im Laufe der Jahre ist die Sammlung immer weiter angewachsen, da die Beitragenden immer mehr Raubkopien einreichten. Anfangs war der Großteil von LibGen auf Russisch, aber schnell dominierten englischsprachige Werke. LibGen wurde trotz mehrerer Versuche von Behörden nicht geschlossen, was zum Teil auf ihre Verbreitungsmethode zurückzuführen ist. Denn LibGen wird in verschiedenen Versionen von verschiedenen Personen über Peer-to-Peer-Netzwerke geteilt – also eine Gruppe von Computern, von denen jeder als gleichberechtigter Knoten für den Austausch von Dateien innerhalb der Gruppe dient. Auch OpenAI hat LibGen in der Vergangenheit genutzt.
„Das Team von Meta hat von ‚MZ‘ – eine offensichtliche Anspielung auf den CEO von Meta, Mark Zuckerberg – die Erlaubnis, den Datensatz herunterzuladen und zu verwenden“, schreibt The Atlantic. Mitarbeiter von Meta räumten in ihrer internen Kommunikation ein, dass das Training von Llama auf LibGen ein „mittleres bis hohes rechtliches Risiko“ darstelle. Vor Gericht argumentierte Meta damit, dass es „Fair Use“ sei, ihre generativen KI-Modelle ohne Lizenz auf urheberrechtlich geschützte Werke zu trainieren, da diese das Originalmaterial in neue Werke „umwandeln“.
Die Verwendung von LibGen wirft jedoch noch ein anderes Problem auf. Das Herunterladen großer Datenmengen erfolgt häufig über Torrents, ein Datenverteilungssystem. Dadurch werden gleichzeitig die Inhalte für andere Nutzer hochgeladen. „Interne Mitteilungen zeigen, dass Mitarbeiter sagen, dass Meta LibGen tatsächlich über Torrent heruntergeladen hat“, schreibt das Magazin – was bedeute, dass Meta nicht nur auf Raubkopienmaterial zugreifen, sondern es auch an andere verteilen konnte. „Was nach dem Urheberrecht als illegal gilt“, schreibt The Atlantic. Meta behauptet hingegen, dass es „Vorkehrungen getroffen hat, um keine heruntergeladenen Dateien zu verbreiten“. Es gebe keine Fakten, die belegen, dass es die Bücher an andere verteilt hat. (Red.)
De Maart
(…) « das Originalmaterial in neue Werke „umwandeln“. »
Das klingt, nebst Diebstahl, irgendwie auch noch nach Plagiat.
Wie lange müssen wir uns diese von mit Millionen Dollar bezahlten Winkeladvokaten erdachten Heucheleien noch anhören? Ich hoffe, das Fass läuft über, bevor diese unkultivierten Menschenverachter das Ruder vollends übernehmen.
ët ass esou, well ëch ënnert dëm Num canis-lupus kommentéieren, muss ëch dach och nët ee Wollef sën..
an esou gesäit de META dat och..
ma ëch fannen dach awer een Ënnerscheed wann Een Ëppes klaut