Data Engineer
Der Data Engineer baut die Dateninfrastruktur.
Er sorgt dafür, dass Daten:
- zuverlässig erfasst
- korrekt transformiert
- konsistent gespeichert
- sicher zugänglich
- reproduzierbar verarbeitbar
sind.
Ohne Data Engineering gibt es keine verlässliche Datenbasis.
1. Kurzdefinition
Ein Data Engineer verantwortet:
- Datenpipelines (ETL/ELT)
- Datenmodellierung
- Datenqualität
- Verfügbarkeit und Skalierung
- Governance und Zugriffskontrolle
Er baut Systeme – nicht Reports.
2. Was macht ein Data Engineer konkret?
2.1 Datenintegration
- Datenquellen anbinden (APIs, DBs, Events)
- Batch- und Streaming-Prozesse definieren
- Schema-Transformationen implementieren
- Versions- und Formatänderungen absichern
2.2 Datenmodellierung
- Normalisierte oder analytische Modelle (z. B. Star Schema)
- Definition von Fact- und Dimension-Tabellen
- Umgang mit Slowly Changing Dimensions
- Performance-Optimierung für Abfragen
Schlechte Datenmodelle führen zu falschen Analysen.
2.3 Datenqualität
- Validierungsregeln definieren
- Null-/Fehlwerte-Strategien
- Deduplizierung
- Monitoring von Anomalien
- Data Lineage
Datenqualität ist ein Qualitätsmerkmal – kein Nebeneffekt.
2.4 Pipeline-Architektur
- Orchestrierung (z. B. DAGs)
- Retry-Strategien
- Idempotenz
- Fehlertoleranz
- Monitoring
Pipelines müssen reproduzierbar und deterministisch sein.
2.5 Governance & Sicherheit
- Zugriffskonzepte
- Datenschutz (PII/PHI)
- Datenklassifizierung
- Auditierbarkeit
- Retention-Strategien
Daten sind ein Risiko – nicht nur ein Asset.
3. Was ein Data Engineer nicht ist
- kein Data Analyst (interpretiert nicht primär)
- kein ML-Engineer (trainiert keine Modelle)
- kein klassischer Backend-Developer
- kein Dashboard-Bauer
Er liefert die Grundlage für alle anderen datenbezogenen Rollen.
4. Schnittstellen der Rolle
Data Analyst
- benötigt saubere, stabile Daten
- definiert analytische Anforderungen
- meldet Qualitätsprobleme zurück
Engineering-Teams
- liefern Events
- müssen Tracking-Standards einhalten
- sind Quelle von Datenänderungen
Security / Compliance
- Datenschutz
- Zugriffskontrolle
- regulatorische Anforderungen
5. Typische Reibungsfelder
Data vs. Product
„Wir brauchen schnell Daten“ vs. „Wir brauchen saubere Daten“
Data vs. Engineering
Tracking-Disziplin vs. Delivery-Druck
Data vs. Management
„Warum dauert das so lange?“ → weil saubere Dateninfrastruktur Architekturarbeit ist.
6. Data Engineer im Qualitätskontext
Stufe 1:
- oft rudimentäre Datenpipelines
Stufe 2:
- definierte Datenmodelle
- Basis-Qualitätsregeln
Stufe 3:
- Monitoring & Data Lineage
- reproduzierbare Pipelines
- Versionierung
Stufe 4–5:
- Auditierbarkeit
- vollständige Traceability
- regulatorische Anforderungen
- dokumentierte Governance
Datenqualität wird in hohen Qualitätsstufen prüfbar.
7. Typische Anti-Patterns
- Direktzugriffe auf Produktionsdaten
- Unversionierte Transformationslogik
- „Fix im Dashboard“
- Keine Dokumentation von Datenquellen
- Kein Ownership für Datenmodelle
- Schemas ohne Governance
Solche Muster führen zu:
- inkonsistenten Reports
- falschen Entscheidungen
- regulatorischem Risiko
Kernaussage
Der Data Engineer macht Daten verlässlich.
Er reduziert Unsicherheit nicht durch Interpretation – sondern durch Struktur, Qualität und Reproduzierbarkeit.
Ohne Data Engineering wird Datenanalyse zum Glücksspiel.