Studien und Evidenz

Die Diskussion über LLMs und agentische Systeme ist stark von Einzelfällen, Demonstrationen und selektiven Erfolgszahlen geprägt. Empirische Studien können helfen, diese Eindrücke zu relativieren – vorausgesetzt, ihre Ergebnisse werden präzise interpretiert.

Diese Seite stellt zentrale Studien vor und beschreibt wiederkehrende Befundmuster. Ziel ist es, belastbare Beobachtungen von suggestiven Einzelzahlen zu trennen und ein realistisches Verständnis dafür zu entwickeln, was diese Studien tatsächlich zeigen.

Wichtige Studien

GitHub Copilot Productivity Study (2023)

Titel
The Impact of AI on Developer Productivity: Evidence from GitHub Copilot

Autoren

Shunyu Yao Peng (GitHub / Microsoft)
Eirini Kalliamvakou (GitHub / Microsoft)
Peter Cihon (Oxford Internet Institute)
Mert Demirer (MIT)

Design

Randomisierte kontrollierte Studie
95 Entwickler
Aufgabe: Implementierung eines einfachen HTTP-Servers
Vergleich: Entwickler mit Copilot vs. ohne Copilot

Ergebnisse

Entwickler mit Copilot lösten die Aufgabe 55 % schneller
Medianzeit:
- ohne Copilot: etwa 160 Minuten
- mit Copilot: etwa 71 Minuten

Schlussfolgerung der Autoren

Die Studie zeigt, dass KI-Assistenten bei klar abgegrenzten Programmieraufgaben signifikante Zeitgewinne ermöglichen können.

Wichtige Einschränkungen

Die Studie untersuchte nicht:

Sicherheitsqualität
langfristige Wartbarkeit
Systemintegration
Architekturentscheidungen

Sie misst daher vor allem Geschwindigkeit bei isolierten Aufgaben.

Copilot Security Study (Stanford University & NYU, 2022)

Titel

Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions

Universitäten

Stanford University
New York University

Autoren

Hammond Pearce (Stanford)
Benjamin Tan (NYU)
weitere Forscher aus Stanford und NYU

Design

Analyse von Copilot-generiertem Code bei sicherheitsrelevanten Aufgaben.

Ergebnisse

Copilot erzeugte häufig Code mit bekannten Sicherheitsproblemen
Beispiele:
- SQL-Injection
- unsichere Authentifizierung
- fehlende Inputvalidierung

Ein besonders bemerkenswertes Ergebnis:

Entwickler mit Copilot waren signifikant häufiger überzeugt, dass ihr Code sicher sei – obwohl er es nicht war.

Schlussfolgerung der Autoren

KI kann Entwickler produktiver erscheinen lassen, gleichzeitig aber das Risiko erhöhen, unsicheren Code zu akzeptieren.

Stanford / NBER Engineering Productivity Study

Institutionen

Stanford University
National Bureau of Economic Research (NBER)

Datengrundlage

Analyse von Entwicklungsaktivitäten aus:

über 100 000 Entwicklern
mehreren hundert Organisationen
Millionen Commits und Pull Requests

Zentrale Beobachtungen

Mit zunehmender Nutzung von KI-Tools steigt typischerweise:

Anzahl der Commits
erzeugte Codezeilen
Anzahl der Pull Requests

Gleichzeitig wurden weitere Effekte beobachtet:

steigender Anteil an Rework
häufigere nachträgliche Änderungen generierten Codes
stärker variierende Qualität der Beiträge

Interpretation

Die Studie zeigt, dass KI vor allem die Aktivität der Entwicklung erhöht.

Das bedeutet jedoch nicht automatisch höhere Produktivität im Sinne besserer oder stabilerer Systeme.

GitClear Codebase Evolution Analysis (2024)

Organisation

GitClear – Analyse großer Software-Repositories

Datengrundlage

etwa 211 Millionen Codeänderungen
mehrere Jahre Repository-Historie

Zentrale Ergebnisse

Nach der breiten Einführung von AI-Coding-Tools wurden folgende Trends beobachtet:

Refactoring-Anteil sank deutlich
Code-Duplikation nahm zu
mehr neue Dateien und Funktionen
weniger strukturelle Vereinheitlichung

Interpretation

AI-Tools beschleunigen vor allem Codeproduktion, während strukturelle Verbesserungen seltener werden.

METR Study zu Open-Source-Entwicklern

Organisation

METR – Model Evaluation and Threat Research

Design

Untersuchung erfahrener Open-Source-Entwickler bei realen Aufgaben aus bestehenden Codebasen.

Ergebnisse

Entwickler glaubten, sie seien etwa 24 % schneller
tatsächlich waren sie im Durchschnitt 19 % langsamer

Ursachen

Der Zeitverlust entstand hauptsächlich durch:

Review-Aufwand
Fehlersuche
Anpassung generierter Lösungen

Interpretation

Die Studie zeigt eine deutliche Diskrepanz zwischen gefühlter Produktivität und realer Produktivität.

Wiederkehrende Befundmuster

Trotz unterschiedlicher Studiendesigns zeigen viele Untersuchungen ähnliche Muster.

Geschwindigkeit

LLMs können Entwicklungsarbeit beschleunigen, insbesondere bei:

Boilerplate-Code
Standardbibliotheken
klar abgegrenzten Funktionen
Exploration neuer Technologien

Qualität

Die Auswirkungen auf Codequalität sind uneinheitlich.

Einige Studien beobachten:

mehr Sicherheitsprobleme
mehr Code-Duplikation
inkonsistente Implementierungen

Andere Studien zeigen stabile Qualität, wenn konsequente Review-Prozesse bestehen bleiben.

Varianz

Ein besonders stabiles Ergebnis vieler Untersuchungen ist die hohe Varianz der Effekte.

Die Wirkung von KI hängt stark ab von:

Erfahrung der Entwickler
Art der Aufgabe
Größe und Reife des Systems
vorhandenen Engineering-Praktiken

Es gibt daher keinen universellen Produktivitätsfaktor.

Laborstudien vs. Produktionsrealität

Viele Studien arbeiten mit isolierten Aufgaben oder Experimenten.

Reale Softwaresysteme enthalten jedoch zusätzliche Faktoren:

bestehende Architektur
technische Schulden
Integrationen mit anderen Systemen
organisatorische Abläufe
langfristige Wartbarkeit

Diese Faktoren bestimmen häufig stärker über den Erfolg eines Systems als die Geschwindigkeit einzelner Implementierungen.

Eine Technologie kann einzelne Aufgaben beschleunigen, ohne automatisch die Entwicklung komplexer Systeme zu vereinfachen.

Messansatz für die eigene Organisation

Studien liefern wertvolle Hinweise, ersetzen jedoch nicht die eigene Beobachtung.

Ein sinnvoller Ansatz besteht aus drei Schritten.

Baseline definieren

Zunächst sollte eine Ausgangsbasis festgelegt werden.

Beispiele:

Durchlaufzeiten typischer Aufgaben
Defekte nach Releases
Review-Aufwand
Onboarding-Dauer

Kontext dokumentieren

Messungen sollten immer im Kontext interpretiert werden.

Wichtige Fragen sind:

Welche Aufgaben werden mit KI unterstützt?
Welche Erfahrungsstufen sind beteiligt?
Welche Teile des Systems sind betroffen?

Outcome statt nur Output messen

Mehr generierter Code bedeutet nicht automatisch bessere Software.

Sinnvoll ist daher eine Kombination aus Perspektiven:

technische Qualität
Wartungsaufwand
Entwicklungsdurchlaufzeiten
Teamzufriedenheit

Empirische Studien zeigen ein relativ konsistentes Bild:

LLMs können Entwicklungsarbeit beschleunigen und subjektive Produktivität erhöhen.
Die Auswirkungen auf Codequalität, Architektur und langfristige Wartbarkeit bleiben jedoch stark kontextabhängig.

Die folgenden Abschnitte betrachten deshalb genauer, wo diese Systeme in der Praxis tatsächlich ihre größten Stärken haben.

Wichtige Studien

GitHub Copilot Productivity Study (2023)​

Copilot Security Study (Stanford University & NYU, 2022)​

Stanford / NBER Engineering Productivity Study​

GitClear Codebase Evolution Analysis (2024)​

METR Study zu Open-Source-Entwicklern​

Wiederkehrende Befundmuster

Geschwindigkeit​

Qualität​

Varianz​

Laborstudien vs. Produktionsrealität

Messansatz für die eigene Organisation

Baseline definieren​

Kontext dokumentieren​

Outcome statt nur Output messen​

GitHub Copilot Productivity Study (2023)

Copilot Security Study (Stanford University & NYU, 2022)

Stanford / NBER Engineering Productivity Study

GitClear Codebase Evolution Analysis (2024)

METR Study zu Open-Source-Entwicklern

Geschwindigkeit

Qualität

Varianz

Baseline definieren

Kontext dokumentieren

Outcome statt nur Output messen