Zum Hauptinhalt springen

Studien und Evidenz

Die Diskussion über LLMs und agentische Systeme ist stark von Einzelfällen, Demonstrationen und selektiven Erfolgszahlen geprägt. Empirische Studien können helfen, diese Eindrücke zu relativieren – vorausgesetzt, ihre Ergebnisse werden präzise interpretiert.

Diese Seite stellt zentrale Studien vor und beschreibt wiederkehrende Befundmuster. Ziel ist es, belastbare Beobachtungen von suggestiven Einzelzahlen zu trennen und ein realistisches Verständnis dafür zu entwickeln, was diese Studien tatsächlich zeigen.


Wichtige Studien

GitHub Copilot Productivity Study (2023)

Titel
The Impact of AI on Developer Productivity: Evidence from GitHub Copilot

Autoren

  • Shunyu Yao Peng (GitHub / Microsoft)
  • Eirini Kalliamvakou (GitHub / Microsoft)
  • Peter Cihon (Oxford Internet Institute)
  • Mert Demirer (MIT)

Design

  • Randomisierte kontrollierte Studie
  • 95 Entwickler
  • Aufgabe: Implementierung eines einfachen HTTP-Servers
  • Vergleich: Entwickler mit Copilot vs. ohne Copilot

Ergebnisse

  • Entwickler mit Copilot lösten die Aufgabe 55 % schneller
  • Medianzeit:
    • ohne Copilot: etwa 160 Minuten
    • mit Copilot: etwa 71 Minuten

Schlussfolgerung der Autoren

Die Studie zeigt, dass KI-Assistenten bei klar abgegrenzten Programmieraufgaben signifikante Zeitgewinne ermöglichen können.

Wichtige Einschränkungen

Die Studie untersuchte nicht:

  • Sicherheitsqualität
  • langfristige Wartbarkeit
  • Systemintegration
  • Architekturentscheidungen

Sie misst daher vor allem Geschwindigkeit bei isolierten Aufgaben.


Copilot Security Study (Stanford University & NYU, 2022)

Titel

Asleep at the Keyboard? Assessing the Security of GitHub Copilot’s Code Contributions

Universitäten

  • Stanford University
  • New York University

Autoren

  • Hammond Pearce (Stanford)
  • Benjamin Tan (NYU)
  • weitere Forscher aus Stanford und NYU

Design

Analyse von Copilot-generiertem Code bei sicherheitsrelevanten Aufgaben.

Ergebnisse

  • Copilot erzeugte häufig Code mit bekannten Sicherheitsproblemen
  • Beispiele:
    • SQL-Injection
    • unsichere Authentifizierung
    • fehlende Inputvalidierung

Ein besonders bemerkenswertes Ergebnis:

  • Entwickler mit Copilot waren signifikant häufiger überzeugt, dass ihr Code sicher sei – obwohl er es nicht war.

Schlussfolgerung der Autoren

KI kann Entwickler produktiver erscheinen lassen, gleichzeitig aber das Risiko erhöhen, unsicheren Code zu akzeptieren.


Stanford / NBER Engineering Productivity Study

Institutionen

  • Stanford University
  • National Bureau of Economic Research (NBER)

Datengrundlage

Analyse von Entwicklungsaktivitäten aus:

  • über 100 000 Entwicklern
  • mehreren hundert Organisationen
  • Millionen Commits und Pull Requests

Zentrale Beobachtungen

Mit zunehmender Nutzung von KI-Tools steigt typischerweise:

  • Anzahl der Commits
  • erzeugte Codezeilen
  • Anzahl der Pull Requests

Gleichzeitig wurden weitere Effekte beobachtet:

  • steigender Anteil an Rework
  • häufigere nachträgliche Änderungen generierten Codes
  • stärker variierende Qualität der Beiträge

Interpretation

Die Studie zeigt, dass KI vor allem die Aktivität der Entwicklung erhöht.

Das bedeutet jedoch nicht automatisch höhere Produktivität im Sinne besserer oder stabilerer Systeme.


GitClear Codebase Evolution Analysis (2024)

Organisation

GitClear – Analyse großer Software-Repositories

Datengrundlage

  • etwa 211 Millionen Codeänderungen
  • mehrere Jahre Repository-Historie

Zentrale Ergebnisse

Nach der breiten Einführung von AI-Coding-Tools wurden folgende Trends beobachtet:

  • Refactoring-Anteil sank deutlich
  • Code-Duplikation nahm zu
  • mehr neue Dateien und Funktionen
  • weniger strukturelle Vereinheitlichung

Interpretation

AI-Tools beschleunigen vor allem Codeproduktion, während strukturelle Verbesserungen seltener werden.


METR Study zu Open-Source-Entwicklern

Organisation

METR – Model Evaluation and Threat Research

Design

Untersuchung erfahrener Open-Source-Entwickler bei realen Aufgaben aus bestehenden Codebasen.

Ergebnisse

  • Entwickler glaubten, sie seien etwa 24 % schneller
  • tatsächlich waren sie im Durchschnitt 19 % langsamer

Ursachen

Der Zeitverlust entstand hauptsächlich durch:

  • Review-Aufwand
  • Fehlersuche
  • Anpassung generierter Lösungen

Interpretation

Die Studie zeigt eine deutliche Diskrepanz zwischen gefühlter Produktivität und realer Produktivität.


Wiederkehrende Befundmuster

Trotz unterschiedlicher Studiendesigns zeigen viele Untersuchungen ähnliche Muster.


Geschwindigkeit

LLMs können Entwicklungsarbeit beschleunigen, insbesondere bei:

  • Boilerplate-Code
  • Standardbibliotheken
  • klar abgegrenzten Funktionen
  • Exploration neuer Technologien

Qualität

Die Auswirkungen auf Codequalität sind uneinheitlich.

Einige Studien beobachten:

  • mehr Sicherheitsprobleme
  • mehr Code-Duplikation
  • inkonsistente Implementierungen

Andere Studien zeigen stabile Qualität, wenn konsequente Review-Prozesse bestehen bleiben.


Varianz

Ein besonders stabiles Ergebnis vieler Untersuchungen ist die hohe Varianz der Effekte.

Die Wirkung von KI hängt stark ab von:

  • Erfahrung der Entwickler
  • Art der Aufgabe
  • Größe und Reife des Systems
  • vorhandenen Engineering-Praktiken

Es gibt daher keinen universellen Produktivitätsfaktor.


Laborstudien vs. Produktionsrealität

Viele Studien arbeiten mit isolierten Aufgaben oder Experimenten.

Reale Softwaresysteme enthalten jedoch zusätzliche Faktoren:

  • bestehende Architektur
  • technische Schulden
  • Integrationen mit anderen Systemen
  • organisatorische Abläufe
  • langfristige Wartbarkeit

Diese Faktoren bestimmen häufig stärker über den Erfolg eines Systems als die Geschwindigkeit einzelner Implementierungen.

Eine Technologie kann einzelne Aufgaben beschleunigen, ohne automatisch die Entwicklung komplexer Systeme zu vereinfachen.


Messansatz für die eigene Organisation

Studien liefern wertvolle Hinweise, ersetzen jedoch nicht die eigene Beobachtung.

Ein sinnvoller Ansatz besteht aus drei Schritten.


Baseline definieren

Zunächst sollte eine Ausgangsbasis festgelegt werden.

Beispiele:

  • Durchlaufzeiten typischer Aufgaben
  • Defekte nach Releases
  • Review-Aufwand
  • Onboarding-Dauer

Kontext dokumentieren

Messungen sollten immer im Kontext interpretiert werden.

Wichtige Fragen sind:

  • Welche Aufgaben werden mit KI unterstützt?
  • Welche Erfahrungsstufen sind beteiligt?
  • Welche Teile des Systems sind betroffen?

Outcome statt nur Output messen

Mehr generierter Code bedeutet nicht automatisch bessere Software.

Sinnvoll ist daher eine Kombination aus Perspektiven:

  • technische Qualität
  • Wartungsaufwand
  • Entwicklungsdurchlaufzeiten
  • Teamzufriedenheit

Empirische Studien zeigen ein relativ konsistentes Bild:

LLMs können Entwicklungsarbeit beschleunigen und subjektive Produktivität erhöhen.
Die Auswirkungen auf Codequalität, Architektur und langfristige Wartbarkeit bleiben jedoch stark kontextabhängig.

Die folgenden Abschnitte betrachten deshalb genauer, wo diese Systeme in der Praxis tatsächlich ihre größten Stärken haben.