KI löst inzwischen die Mehrheit echter Programmier-Aufgaben

SWE-bench — echte GitHub-Issues fixen — sprang in einem Jahr von 4,4 % auf 71,7 %. Der Autonomie-Horizont verdoppelt sich etwa alle sieben Monate. Die reale Produktivität bei Profis ist trotzdem umstritten.

4,4 → 71,7 %

auf SWE-bench in einem Jahr (2023 → 2024)

Stanford HAI AI Index 2025

SWE-bench Verified · Spitzenwert über die Zeit

Okt 2023 · Claude 2

1.96 %

2023 · bestes System

4.4 %

Jun 2024 · Claude 3.5 Sonnet

33.4 %

2024 · bestes System

71.7 %

Ende 2025 · Claude Opus 4.5

80.9 %

Quelle: Stanford HAI 2025 · Anthropic · llm-stats.

Einordnung

SWE-bench misst, ob ein Modell echte, gemeldete GitHub-Fehler eigenständig behebt — kein Quiz, sondern Arbeit an echten Repos. Der beste Wert sprang in einem Jahr von 4,4 % auf 71,7 %. Zur Einordnung: Ende 2023 löste das beste System praktisch nichts autonom.

Eine zweite, methodisch unabhängige Messung kommt von METR: die Länge von Aufgaben, die KI autonom mit 50 % Erfolg erledigt. Sie wuchs von wenigen Sekunden (2019) über ~4 Minuten (Anfang 2023) und ~40 Minuten (Ende 2024) auf ~2 Stunden (GPT-5, August 2025) und ~4,8 Stunden (Claude Opus 4.5, Ende 2025) — eine Verdopplung etwa alle sieben Monate.

Der eigentliche Sprung ist qualitativ: vom Autocomplete (2021) zu autonomen Agenten (2024–2026), die selbst Bash ausführen, Dateien editieren und Tests in Schleifen laufen lassen. Bei mana ist das kein Versprechen, sondern gebaut — jeder Plattform-Service ist strukturell aus dem Terminal debugbar, festgehalten in docs/AI_CO_ENGINEER.md.

Wichtig bleibt der nüchterne Blick: Benchmark-Score ist nicht Produktiv-Tauglichkeit. Die vollständige Datenlage mit allen Caveats steht in docs/KI_OEKONOMIE_LAGE.md.

Der ehrliche Gegenpunkt

Diese Benchmark-Werte sind nachweislich nach oben verzerrt. OpenAI hat SWE-bench Verified im Februar 2026 fallengelassen, weil jedes Frontier-Modell Trainingsdaten-Leakage zeigte. Auf dem kontaminations-resistenten SWE-bench Pro fallen dieselben Modelle auf ~23 %. In einem kontrollierten Versuch waren erfahrene Entwickler:innen mit KI-Werkzeugen sogar 19 % langsamer — obwohl sie sich schneller fühlten. Ehrlich heißt das: rasant wachsende Fähigkeiten, deren Produktivitäts-Wirkung bei Profis noch umstritten ist — nicht „KI ersetzt Entwickler:innen".

Belege

Quellen Dritter

Was wir hier behaupten, behaupten andere zuerst und mit eigenem Namen daneben. Datum dort, wo es belegbar ist.

Thesen

Weitere Thesen

Diese Thesen sind die eine Hälfte der Frage „warum jetzt?" — warum mana möglich ist. Die andere Hälfte, warum mana nötig ist, steht unter Souveränität.

Alle Thesen →Warum jetzt?