e.V.
Probleme · KI · geprüft 2026-05-21

KI-Trainingsdaten ohne Konsens — Wäsche im Industriemaßstab

Die großen Sprach- und Bildmodelle wurden mit Daten trainiert, die ihren Anbietern weder gehörten noch zur Nutzung freigegeben waren. Bücher, Code, Kunstwerke, persönliche Bilder, Wikipedia, Reddit, ganze Verlage — als „Public Web" eingelesen, als Trainingsgewichte ausgewaschen.

These
Datenkonsens wurde im Skalierungswettlauf wegoptimiert. Wer den Streit ausfechten will, muss sich durch Verfahren klagen, die länger dauern als die nächste Modell-Generation.
Beispiele

Wie sich das zeigt

  • New York Times v. OpenAI / Microsoft (USA): Klage Ende 2023, Vorwurf gewerblicher Urheberrechtsverletzung an Millionen Artikeln. Verfahren läuft seit 2024.
  • Books3-Korpus: ~196.000 Bücher (u.a. Stephen King, Margaret Atwood) wurden 2020 aus illegaler Quelle in das Trainings- Set EleutherAI / The Pile aufgenommen und sind in vielen LLMs „enthalten".
  • Getty Images v. Stability AI (UK/USA): Bildagentur klagt wegen Verwendung lizenzpflichtiger Bilder im Stable-Diffusion- Training; Stability AI antwortete teils mit „transformative use"-Argumenten.
  • Künstler-Kollektivklage gegen Stability AI / Midjourney / DeviantArt (USA, 2023): 8.000+ Künstler:innen, deren Werke ohne Erlaubnis in Trainings-Korpora gelandet sind.
  • EU AI Act, Artikel 53: ab August 2025 Pflicht für Foundation-Model-Anbieter, einen detaillierten Bericht über Trainingsdaten-Quellen zu veröffentlichen. OpenAI, Anthropic und andere haben bisher nur sehr abstrakte Übersichten geliefert.
Diagnose

Die These „KI lernt aus dem, was öffentlich im Netz steht” hat mehrere implizite Annahmen, die nicht halten. Erstens: „öffentlich einsehbar” ist nicht dasselbe wie „freigegeben zur kommerziellen Weiterverwertung in einem Modell, das später verkauft wird”. Zweitens: viele Korpora enthalten ohnehin nicht öffentliche Inhalte — Books3 wurde aus einer Schattenbibliothek geladen, in Bild-Korpora landete Lizenz-pflichtiges Material.

Die juristische Lage ist Anfang 2026 noch im Werden. Die NYT- Klage gegen OpenAI läuft im zweiten Jahr, die Künstler- Sammelklagen gegen Stability AI sind erweitert worden, der EU AI Act verlangt seit August 2025 detaillierte Trainingsdaten- Berichte — die meisten Anbieter haben bisher nur sehr abstrakte Auflistungen geliefert. „Was haben wir trainiert?” ist eine Frage, die mit dem Argument „proprietär” abgewiesen wird, während Modelle gleichzeitig die Inhalte reproduzieren können, mit denen sie trainiert wurden.

Für unsere Verein-Arbeit folgt daraus eine vorsichtige Position: KI ist nützlich, aber die heutigen kommerziellen Foundation- Modelle sind mit einem unbearbeiteten Schuld-Posten gestartet. Wir können den nicht nachträglich heilen. Was wir tun: lokale, kleinere Modelle bevorzugen (FoundationModels, Gemma 4 MLX) — nicht weil sie sauber sind, sondern weil sie weniger zentralisiert sind und auf Geräten laufen, wo wir Daten nicht erst in fremde Server geben müssen. Wir transparent machen, wenn KI in Vereins-Apps mitschreibt (siehe Cross-App-Timeline). Und wir veröffentlichen keine eigenen großen Trainings-Korpora, ohne dass die Quellen-Lizenzen sauber geklärt sind — was bei den zugänglichen offenen Korpora oft nicht der Fall ist.

Eine ehrliche Beschränkung: solange wir auf Anthropic oder OpenAI für hochkomplexe Inferenz zurückgreifen, sind wir Teil dieser Lieferkette. Wir benennen das im Compliance-Dokument als bewusst akzeptierte externe Abhängigkeit. Das macht es nicht besser. Es macht es nur sichtbar.

Diagnose ohne Antwort ist Lamentation. Was wir baulich tun, steht im Lösungs-Hub.