KI löst inzwischen die Mehrheit echter Programmier-Aufgaben
SWE-bench — echte GitHub-Issues fixen — sprang in einem Jahr von 4,4 % auf 71,7 %. Der Autonomie-Horizont verdoppelt sich etwa alle sieben Monate. Die reale Produktivität bei Profis ist trotzdem umstritten.
Quelle: Stanford HAI 2025 · Anthropic · llm-stats.
SWE-bench misst, ob ein Modell echte, gemeldete GitHub-Fehler eigenständig behebt — kein Quiz, sondern Arbeit an echten Repos. Der beste Wert sprang in einem Jahr von 4,4 % auf 71,7 %. Zur Einordnung: Ende 2023 löste das beste System praktisch nichts autonom.
Eine zweite, methodisch unabhängige Messung kommt von METR: die Länge von Aufgaben, die KI autonom mit 50 % Erfolg erledigt. Sie wuchs von wenigen Sekunden (2019) über ~4 Minuten (Anfang 2023) und ~40 Minuten (Ende 2024) auf ~2 Stunden (GPT-5, August 2025) und ~4,8 Stunden (Claude Opus 4.5, Ende 2025) — eine Verdopplung etwa alle sieben Monate.
Der eigentliche Sprung ist qualitativ: vom Autocomplete (2021) zu autonomen Agenten (2024–2026), die selbst Bash ausführen, Dateien editieren und Tests in Schleifen laufen lassen. Bei mana ist das kein Versprechen, sondern gebaut — jeder Plattform-Service ist strukturell aus dem Terminal debugbar, festgehalten in docs/AI_CO_ENGINEER.md.
Wichtig bleibt der nüchterne Blick: Benchmark-Score ist nicht Produktiv-Tauglichkeit. Die vollständige Datenlage mit allen Caveats steht in docs/KI_OEKONOMIE_LAGE.md.
Diese Benchmark-Werte sind nachweislich nach oben verzerrt. OpenAI hat SWE-bench Verified im Februar 2026 fallengelassen, weil jedes Frontier-Modell Trainingsdaten-Leakage zeigte. Auf dem kontaminations-resistenten SWE-bench Pro fallen dieselben Modelle auf ~23 %. In einem kontrollierten Versuch waren erfahrene Entwickler:innen mit KI-Werkzeugen sogar 19 % langsamer — obwohl sie sich schneller fühlten. Ehrlich heißt das: rasant wachsende Fähigkeiten, deren Produktivitäts-Wirkung bei Profis noch umstritten ist — nicht „KI ersetzt Entwickler:innen".
Quellen Dritter
Was wir hier behaupten, behaupten andere zuerst und mit eigenem Namen daneben. Datum dort, wo es belegbar ist.
- Stanford HAI — 2025 AI Index (Technical Performance)
- Anthropic — Raising the bar on SWE-bench Verified 2025-01-06
- OpenAI — Why we no longer evaluate SWE-bench Verified 2026-02-23
- Scale AI — SWE-bench Pro (arXiv 2509.16941) 2025-09
- METR — Task-Completion Time Horizons
- METR — KI & erfahrene OSS-Entwickler:innen (RCT) 2025-07-10
Diese Thesen sind die eine Hälfte der Frage „warum jetzt?" — warum mana möglich ist. Die andere Hälfte, warum mana nötig ist, steht unter Souveränität.