KI-Trainingsdaten ohne Konsens — Wäsche im Industriemaßstab
Die großen Sprach- und Bildmodelle wurden mit Daten trainiert, die ihren Anbietern weder gehörten noch zur Nutzung freigegeben waren. Bücher, Code, Kunstwerke, persönliche Bilder, Wikipedia, Reddit, ganze Verlage — als „Public Web" eingelesen, als Trainingsgewichte ausgewaschen.
Wie sich das zeigt
- New York Times v. OpenAI / Microsoft (USA): Klage Ende 2023, Vorwurf gewerblicher Urheberrechtsverletzung an Millionen Artikeln. Verfahren läuft seit 2024.
- Books3-Korpus: ~196.000 Bücher (u.a. Stephen King, Margaret Atwood) wurden 2020 aus illegaler Quelle in das Trainings- Set EleutherAI / The Pile aufgenommen und sind in vielen LLMs „enthalten".
- Getty Images v. Stability AI (UK/USA): Bildagentur klagt wegen Verwendung lizenzpflichtiger Bilder im Stable-Diffusion- Training; Stability AI antwortete teils mit „transformative use"-Argumenten.
- Künstler-Kollektivklage gegen Stability AI / Midjourney / DeviantArt (USA, 2023): 8.000+ Künstler:innen, deren Werke ohne Erlaubnis in Trainings-Korpora gelandet sind.
- EU AI Act, Artikel 53: ab August 2025 Pflicht für Foundation-Model-Anbieter, einen detaillierten Bericht über Trainingsdaten-Quellen zu veröffentlichen. OpenAI, Anthropic und andere haben bisher nur sehr abstrakte Übersichten geliefert.
Die These „KI lernt aus dem, was öffentlich im Netz steht” hat mehrere implizite Annahmen, die nicht halten. Erstens: „öffentlich einsehbar” ist nicht dasselbe wie „freigegeben zur kommerziellen Weiterverwertung in einem Modell, das später verkauft wird”. Zweitens: viele Korpora enthalten ohnehin nicht öffentliche Inhalte — Books3 wurde aus einer Schattenbibliothek geladen, in Bild-Korpora landete Lizenz-pflichtiges Material.
Die juristische Lage ist Anfang 2026 noch im Werden. Die NYT- Klage gegen OpenAI läuft im zweiten Jahr, die Künstler- Sammelklagen gegen Stability AI sind erweitert worden, der EU AI Act verlangt seit August 2025 detaillierte Trainingsdaten- Berichte — die meisten Anbieter haben bisher nur sehr abstrakte Auflistungen geliefert. „Was haben wir trainiert?” ist eine Frage, die mit dem Argument „proprietär” abgewiesen wird, während Modelle gleichzeitig die Inhalte reproduzieren können, mit denen sie trainiert wurden.
Für unsere Verein-Arbeit folgt daraus eine vorsichtige Position: KI ist nützlich, aber die heutigen kommerziellen Foundation- Modelle sind mit einem unbearbeiteten Schuld-Posten gestartet. Wir können den nicht nachträglich heilen. Was wir tun: lokale, kleinere Modelle bevorzugen (FoundationModels, Gemma 4 MLX) — nicht weil sie sauber sind, sondern weil sie weniger zentralisiert sind und auf Geräten laufen, wo wir Daten nicht erst in fremde Server geben müssen. Wir transparent machen, wenn KI in Vereins-Apps mitschreibt (siehe Cross-App-Timeline). Und wir veröffentlichen keine eigenen großen Trainings-Korpora, ohne dass die Quellen-Lizenzen sauber geklärt sind — was bei den zugänglichen offenen Korpora oft nicht der Fall ist.
Eine ehrliche Beschränkung: solange wir auf Anthropic oder OpenAI für hochkomplexe Inferenz zurückgreifen, sind wir Teil dieser Lieferkette. Wir benennen das im Compliance-Dokument als bewusst akzeptierte externe Abhängigkeit. Das macht es nicht besser. Es macht es nur sichtbar.
Quellen Dritter
Was wir hier behaupten, behaupten andere zuerst und mit eigenem Namen daneben. Datum dort, wo es belegbar ist.
Wie wir strukturell antworten
Lösungen, die diesen Problem adressieren. Keine Marketing-Versprechen, sondern Architektur-Entscheidungen mit Belegen im Code.
- BYOK-Vault — der Verein sieht den Klartext nichtDer einzige Anbieter, dem man Daten ohne Vertrauen anvertrauen kann, ist der, der sie technisch nicht sehen kann — auch wenn er wollte.
- Selbstkostenpreis statt Werbe-GeschäftsmodellWenn der Verein nicht von Werbe-Erlösen lebt, gibt es keinen ökonomischen Hebel, der irgendwann zu Tracking, Profiling oder Verkauf zwingen würde.
- Local-First + Login-OptionalDas energie-effizienteste Rechenzentrum ist die CPU, die ohnehin schon in der Hosentasche liegt — und kein Konto ist die beste Privatsphäre.
Welche Grundsätze hier verletzt werden
Diagnose ohne Antwort ist Lamentation. Was wir baulich tun, steht im Lösungs-Hub.