e.V.
Thesen · geprüft 2026-05-27
Wie entwickeln sich die Fähigkeiten der KI-Modelle in der Software-Entwicklung?

KI löst inzwischen die Mehrheit echter Programmier-Aufgaben

SWE-bench — echte GitHub-Issues fixen — sprang in einem Jahr von 4,4 % auf 71,7 %. Der Autonomie-Horizont verdoppelt sich etwa alle sieben Monate. Die reale Produktivität bei Profis ist trotzdem umstritten.

4,4 → 71,7 %
auf SWE-bench in einem Jahr (2023 → 2024)
Stanford HAI AI Index 2025
SWE-bench Verified · Spitzenwert über die Zeit
Okt 2023 · Claude 2
1.96 %
2023 · bestes System
4.4 %
Jun 2024 · Claude 3.5 Sonnet
33.4 %
2024 · bestes System
71.7 %
Ende 2025 · Claude Opus 4.5
80.9 %

Quelle: Stanford HAI 2025 · Anthropic · llm-stats.

Einordnung

SWE-bench misst, ob ein Modell echte, gemeldete GitHub-Fehler eigenständig behebt — kein Quiz, sondern Arbeit an echten Repos. Der beste Wert sprang in einem Jahr von 4,4 % auf 71,7 %. Zur Einordnung: Ende 2023 löste das beste System praktisch nichts autonom.

Eine zweite, methodisch unabhängige Messung kommt von METR: die Länge von Aufgaben, die KI autonom mit 50 % Erfolg erledigt. Sie wuchs von wenigen Sekunden (2019) über ~4 Minuten (Anfang 2023) und ~40 Minuten (Ende 2024) auf ~2 Stunden (GPT-5, August 2025) und ~4,8 Stunden (Claude Opus 4.5, Ende 2025) — eine Verdopplung etwa alle sieben Monate.

Der eigentliche Sprung ist qualitativ: vom Autocomplete (2021) zu autonomen Agenten (2024–2026), die selbst Bash ausführen, Dateien editieren und Tests in Schleifen laufen lassen. Bei mana ist das kein Versprechen, sondern gebaut — jeder Plattform-Service ist strukturell aus dem Terminal debugbar, festgehalten in docs/AI_CO_ENGINEER.md.

Wichtig bleibt der nüchterne Blick: Benchmark-Score ist nicht Produktiv-Tauglichkeit. Die vollständige Datenlage mit allen Caveats steht in docs/KI_OEKONOMIE_LAGE.md.

Der ehrliche Gegenpunkt

Diese Benchmark-Werte sind nachweislich nach oben verzerrt. OpenAI hat SWE-bench Verified im Februar 2026 fallengelassen, weil jedes Frontier-Modell Trainingsdaten-Leakage zeigte. Auf dem kontaminations-resistenten SWE-bench Pro fallen dieselben Modelle auf ~23 %. In einem kontrollierten Versuch waren erfahrene Entwickler:innen mit KI-Werkzeugen sogar 19 % langsamer — obwohl sie sich schneller fühlten. Ehrlich heißt das: rasant wachsende Fähigkeiten, deren Produktivitäts-Wirkung bei Profis noch umstritten ist — nicht „KI ersetzt Entwickler:innen".

Diese Thesen sind die eine Hälfte der Frage „warum jetzt?" — warum mana möglich ist. Die andere Hälfte, warum mana nötig ist, steht unter Souveränität.