Datenschutz steht bei den wenigsten ganz oben auf der Prioritätenliste. Oft fühlt es sich an wie ein Bremsklotz. Gerade, wenn man eigentlich gestalten will statt verwalten, aber sobald KI im Spiel ist, wird Datenschutz nicht nur wichtig, sondern entscheidend.
Denn KI-Systeme verarbeiten riesige Datenmengen. Schnell, automatisch, oft mit Trainingsdaten, bei denen die Herkunft nicht immer klar ist. Die DSGVO wurde nicht für Foundation Models geschrieben, aber genau da müssen wir heute ran. Niemand will, dass sensible Kunden- oder Unternehmensdaten irgendwo landen, wo sie nichts zu suchen haben. Ein Verstoß ist hier kein Kavaliersdelikt – wir sprechen von Bußgeldern von bis zu 4 % des weltweiten Jahresumsatzes und einem kaum wieder gutzumachenden Vertrauensverlust.
Und ganz ehrlich: Datenschutz ist kein Projektstopper. Wenn wir’s richtig machen, wird er zum Qualitätsmerkmal. Denn wer hier Verantwortung zeigt, gewinnt Vertrauen. Und das ist gerade im KI-Kontext ein Differenzierungsmerkmal.
Was sagt die DSGVO – und was bedeutet das für KI?
Die DSGVO ist eigentlich ziemlich klar. Daten dürfen nur verarbeitet werden, wenn es dafür eine Rechtsgrundlage gibt. Für KI heißt das: Entweder holst du dir die Einwilligung, was in der Praxis oft schwierig ist, oder du berufst dich auf berechtigtes Interesse. Aber Achtung: Dann brauchst du eine gute Begründung und musst Risiken abwägen (Stichwort: Interessenabwägung).
Wichtig sind auch:
Zweckbindung: Wofür du die Daten sammelst, dafür darfst du sie nutzen. Nicht einfach alles für alles.
Datenminimierung: Nur so viel wie nötig, nicht so viel wie möglich.
Transparenz: Nutzer:innen müssen verstehen, was du mit ihren Daten machst – auch wenn ein Modell im Hintergrund läuft.
Die große Herausforderung: Viele KI-Modelle funktionieren wie eine Black Box. Sie liefern Ergebnisse, aber keine Erklärungen. Genau hier entsteht ein Spannungsfeld zur DSGVO, die nachvollziehbare Datenverarbeitung fordert. Bei offenen oder extern gehosteten Systemen lässt sich oft nicht kontrollieren, was mit den eingegebenen Daten geschieht. Unternehmen sollten deshalb nur solche Modelle einsetzen, bei denen vertraglich geregelt ist, dass keine Daten an Dritte weitergegeben werden. Zudem gilt: Die technischen und rechtlichen Grenzen des Systems müssen klar dokumentiert und intern verstanden sein.
DSGVO-konformes Training
Es ist definitiv möglich, eine KI DSGVO-konform zu trainieren. Aber du musst sauber arbeiten. Und ehrlich sein, was deine Daten angeht. Kein „Wird schon passen“.
Für das Training von Modellen gilt:
Keine personenbezogenen Daten ohne Rechtsgrundlage. Auch nicht „aus Versehen“.
Anonymisierte oder synthetische Daten sind okay. Aber bitte nicht verwechseln mit „einfach Namen rauslöschen“.
Wenn du lizensierte Daten nutzt, klär die Rechte. Wer hat’s erstellt? Was darfst du damit tun?
Beim Fine-Tuning auf unternehmensinternen Daten ist das Thema besonders heikel. Hier brauchst du klare Prozesse:
Welche Daten landen im Modell?
Wer hat Zugriff?
Wird das Modell weitergegeben?
Und die Dokumentation darf natürlich nicht vergessen werden:
Welche Datenquellen wurden genutzt?
Wann wurde was verändert?
Wer hat’s freigegeben?
Wir haben das zum Beispiel mit einem Kunden umgesetzt, dessen KI-Chatbot auf interne Wissensdatenbanken zugreift. Dafür haben wir die Daten strukturiert aufbereitet, Rollen- und Zugriffskonzepte beachtet, das Modell auf dedizierten, gesicherten Systemen trainiert. Moderne Architekturen wie Retrieval-Augmented Generation (RAG) helfen dabei, indem das Modell Wissen nicht direkt "lernt", sondern bei Bedarf aus einer kontrollierten, gesicherten Datenquelle abruft. So bleiben die sensiblen Daten von der Logik des Modells getrennt.
Es geht also, aber nur, wenn man Datenschutz nicht als Pflichtübung sieht, sondern als Teil einer soliden Architektur.
Privacy by Design
Privacy by Design ist keine Option, sondern ein Muss. Denn Datenschutz bei KI lässt sich nicht einfach nachrüsten, er muss von Anfang an mitgedacht werden. Technisch wie organisatorisch.
Ein paar bewährte Hebel:
Modellwahl: Cloud-API oder Self-Hosted? Proprietär oder Open Source? Die Entscheidung hat Auswirkungen auf Kontrolle, Logging und Zugriff.
Rollen- & Rechtekonzepte: Wer darf was? Auch bei Prompt Logs oder Modellantworten.
Monitoring & Auditing: Nicht nur „läuft“, sondern: „läuft korrekt“. Auch das gehört zur Verantwortlichkeit.
Und jetzt kommt’s: Mit dem EU AI Act steigen die Anforderungen weiter. Gerade für „High Risk“-Anwendungen wie HR, Finanzen oder kritische Infrastrukturen werden Transparenz, Risikobewertung und Dokumentation zur klaren Anforderung. Wer da keinen Plan hat, wird schnell ausgebremst, nicht von der Technologie, sondern von der fehlenden Governance.
Klar, es gibt mittlerweile gute Tools für Consent Layer, Zugriffssysteme und dediziertes Hosting. Aber: Tools allein machen keinen Datenschutz. Haltung schon. Wer Privacy by Design wirklich lebt, baut vertrauenswürdige Systeme und ist damit langfristig klar im Vorteil. Wer’s nur als Checkbox sieht, wird irgendwann eingeholt, sei es von Regulatorik oder von verlorener Glaubwürdigkeit.
Fazit
Verantwortungsvoll mit Daten umzugehen ist keine Bremse für KI – es ist die Voraussetzung dafür, dass sie langfristig funktioniert.
Wenn du KI in deinem Unternehmen etablieren willst, brauchst du eine Architektur, die Technik und Recht zusammen denkt. Eine, die nachvollziehbar ist. Erklärbar. Sicher.
Das ist übrigens auch der Ansatz, den wir bei SHAPE im AI Supercharger Programm verfolgen: Wir schauen auf den Reifegrad, analysieren Prozesse, identifizieren Potenziale – und bauen dann gemeinsam einen Stack, der nicht nur smart, sondern auch sicher ist.
Lust auf mehr Klarheit? Mach den AI Quick Check oder schreib mir direkt.