Studien und Evidenz
Die Diskussion über LLMs und agentische Systeme ist stark von Einzelfällen, Demonstrationen und selektiven Erfolgszahlen geprägt. Empirische Studien können helfen, diese Eindrücke zu relativieren – vorausgesetzt, ihre Ergebnisse werden präzise interpretiert.
Diese Seite stellt zentrale Studien vor und beschreibt wiederkehrende Befundmuster. Ziel ist es, belastbare Beobachtungen von suggestiven Einzelzahlen zu trennen und ein realistisches Verständnis dafür zu entwickeln, was diese Studien tatsächlich zeigen.
Wichtige Studien
GitHub Copilot Productivity Study (2023)
Titel
The Impact of AI on Developer Productivity: Evidence from GitHub Copilot
Autoren
- Shunyu Yao Peng (GitHub / Microsoft)
- Eirini Kalliamvakou (GitHub / Microsoft)
- Peter Cihon (Oxford Internet Institute)
- Mert Demirer (MIT)
Design
- Randomisierte kontrollierte Studie
- 95 Entwickler
- Aufgabe: Implementierung eines einfachen HTTP-Servers
- Vergleich: Entwickler mit Copilot vs. ohne Copilot
Ergebnisse
- Entwickler mit Copilot lösten die Aufgabe 55 % schneller
- Medianzeit:
- ohne Copilot: etwa 160 Minuten
- mit Copilot: etwa 71 Minuten
Schlussfolgerung der Autoren
Die Studie zeigt, dass KI-Assistenten bei klar abgegrenzten Programmieraufgaben signifikante Zeitgewinne ermöglichen können.
Wichtige Einschränkungen
Die Studie untersuchte nicht:
- Sicherheitsqualität
- langfristige Wartbarkeit
- Systemintegration
- Architekturentscheidungen
Sie misst daher vor allem Geschwindigkeit bei isolierten Aufgaben.
Copilot Security Study (Stanford University & NYU, 2022)
Titel
Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions
Universitäten
- Stanford University
- New York University
Autoren
- Hammond Pearce (Stanford)
- Benjamin Tan (NYU)
- weitere Forscher aus Stanford und NYU
Design
Analyse von Copilot-generiertem Code bei sicherheitsrelevanten Aufgaben.
Ergebnisse
- Copilot erzeugte häufig Code mit bekannten Sicherheitsproblemen
- Beispiele:
- SQL-Injection
- unsichere Authentifizierung
- fehlende Inputvalidierung
Ein besonders bemerkenswertes Ergebnis:
- Entwickler mit Copilot waren signifikant häufiger überzeugt, dass ihr Code sicher sei – obwohl er es nicht war.
Schlussfolgerung der Autoren
KI kann Entwickler produktiver erscheinen lassen, gleichzeitig aber das Risiko erhöhen, unsicheren Code zu akzeptieren.
Stanford / NBER Engineering Productivity Study
Institutionen
- Stanford University
- National Bureau of Economic Research (NBER)
Datengrundlage
Analyse von Entwicklungsaktivitäten aus:
- über 100 000 Entwicklern
- mehreren hundert Organisationen
- Millionen Commits und Pull Requests
Zentrale Beobachtungen
Mit zunehmender Nutzung von KI-Tools steigt typischerweise:
- Anzahl der Commits
- erzeugte Codezeilen
- Anzahl der Pull Requests
Gleichzeitig wurden weitere Effekte beobachtet:
- steigender Anteil an Rework
- häufigere nachträgliche Änderungen generierten Codes
- stärker variierende Qualität der Beiträge
Interpretation
Die Studie zeigt, dass KI vor allem die Aktivität der Entwicklung erhöht.
Das bedeutet jedoch nicht automatisch höhere Produktivität im Sinne besserer oder stabilerer Systeme.
GitClear Codebase Evolution Analysis (2024)
Organisation
GitClear – Analyse großer Software-Repositories
Datengrundlage
- etwa 211 Millionen Codeänderungen
- mehrere Jahre Repository-Historie
Zentrale Ergebnisse
Nach der breiten Einführung von AI-Coding-Tools wurden folgende Trends beobachtet:
- Refactoring-Anteil sank deutlich
- Code-Duplikation nahm zu
- mehr neue Dateien und Funktionen
- weniger strukturelle Vereinheitlichung
Interpretation
AI-Tools beschleunigen vor allem Codeproduktion, während strukturelle Verbesserungen seltener werden.
METR Study zu Open-Source-Entwicklern
Organisation
METR – Model Evaluation and Threat Research
Design
Untersuchung erfahrener Open-Source-Entwickler bei realen Aufgaben aus bestehenden Codebasen.
Ergebnisse
- Entwickler glaubten, sie seien etwa 24 % schneller
- tatsächlich waren sie im Durchschnitt 19 % langsamer
Ursachen
Der Zeitverlust entstand hauptsächlich durch:
- Review-Aufwand
- Fehlersuche
- Anpassung generierter Lösungen
Interpretation
Die Studie zeigt eine deutliche Diskrepanz zwischen gefühlter Produktivität und realer Produktivität.
Wiederkehrende Befundmuster
Trotz unterschiedlicher Studiendesigns zeigen viele Untersuchungen ähnliche Muster.
Geschwindigkeit
LLMs können Entwicklungsarbeit beschleunigen, insbesondere bei:
- Boilerplate-Code
- Standardbibliotheken
- klar abgegrenzten Funktionen
- Exploration neuer Technologien
Qualität
Die Auswirkungen auf Codequalität sind uneinheitlich.
Einige Studien beobachten:
- mehr Sicherheitsprobleme
- mehr Code-Duplikation
- inkonsistente Implementierungen
Andere Studien zeigen stabile Qualität, wenn konsequente Review-Prozesse bestehen bleiben.
Varianz
Ein besonders stabiles Ergebnis vieler Untersuchungen ist die hohe Varianz der Effekte.
Die Wirkung von KI hängt stark ab von:
- Erfahrung der Entwickler
- Art der Aufgabe
- Größe und Reife des Systems
- vorhandenen Engineering-Praktiken
Es gibt daher keinen universellen Produktivitätsfaktor.
Laborstudien vs. Produktionsrealität
Viele Studien arbeiten mit isolierten Aufgaben oder Experimenten.
Reale Softwaresysteme enthalten jedoch zusätzliche Faktoren:
- bestehende Architektur
- technische Schulden
- Integrationen mit anderen Systemen
- organisatorische Abläufe
- langfristige Wartbarkeit
Diese Faktoren bestimmen häufig stärker über den Erfolg eines Systems als die Geschwindigkeit einzelner Implementierungen.
Eine Technologie kann einzelne Aufgaben beschleunigen, ohne automatisch die Entwicklung komplexer Systeme zu vereinfachen.
Messansatz für die eigene Organisation
Studien liefern wertvolle Hinweise, ersetzen jedoch nicht die eigene Beobachtung.
Ein sinnvoller Ansatz besteht aus drei Schritten.
Baseline definieren
Zunächst sollte eine Ausgangsbasis festgelegt werden.
Beispiele:
- Durchlaufzeiten typischer Aufgaben
- Defekte nach Releases
- Review-Aufwand
- Onboarding-Dauer
Kontext dokumentieren
Messungen sollten immer im Kontext interpretiert werden.
Wichtige Fragen sind:
- Welche Aufgaben werden mit KI unterstützt?
- Welche Erfahrungsstufen sind beteiligt?
- Welche Teile des Systems sind betroffen?
Outcome statt nur Output messen
Mehr generierter Code bedeutet nicht automatisch bessere Software.
Sinnvoll ist daher eine Kombination aus Perspektiven:
- technische Qualität
- Wartungsaufwand
- Entwicklungsdurchlaufzeiten
- Teamzufriedenheit
Empirische Studien zeigen ein relativ konsistentes Bild:
LLMs können Entwicklungsarbeit beschleunigen und subjektive Produktivität erhöhen.
Die Auswirkungen auf Codequalität, Architektur und langfristige Wartbarkeit bleiben jedoch stark kontextabhängig.
Die folgenden Abschnitte betrachten deshalb genauer, wo diese Systeme in der Praxis tatsächlich ihre größten Stärken haben.