Wie du Video-Calls gegen Deepfake-Betrug absicherst

14 min read
Juni 18, 2026

Im Januar 2024 erhielt ein Finance-Mitarbeiter bei Arup, dem multinationalen Ingenieurbüro, eine Einladung zu einem Video-Call, die wie Routine aussah. Vor der Einladung war eine Phishing-Mail über eine geheime Transaktion eingegangen, die der Mitarbeiter verdächtig fand. Statt Alarm zu schlagen, trat er dem Video-Call bei – und was er dort sah, löste seine Zweifel auf: der CFO auf dem Bildschirm, mehrere vertraute Kollegen anwesend, eine dringende Überweisungs-Anfrage auf der Agenda. Alles sah normal aus. Alles klang normal.

Nichts davon war echt.

Jede Person in diesem Call war ein Deepfake: der CFO, die Kollegen, das ganze Meeting. Alles davon war KI-generiertes synthetisches Video, in Echtzeit eingespielt. Der Angreifer hatte keinen Plattform-Zugriff umgangen; der Mitarbeiter war freiwillig beigetreten, nachdem Social Engineering ihn dorthin geleitet hatte. Bis der Betrug entdeckt war, hatten 200 Millionen HK-Dollar (rund 25 Millionen US-Dollar) das Unternehmen verlassen. Es ist nach wie vor der größte bestätigte Fall von Deepfake-Video-Call-Betrug gegen ein Unternehmensziel.

Der Arup-Fall hat nicht nur Schlagzeilen gemacht. Er hat verändert, wie Sicherheits-Verantwortliche über Videokonferenzen denken. Wenn ein geschulter Finanzprofi dazu gebracht werden kann, eine 25-Millionen-Dollar-Überweisung in einem synthetischen Video-Call zu autorisieren, lautet die Frage nicht mehr, ob dein Unternehmen Opfer eines solchen Angriffs werden könnte. Die Frage ist, ob deine Video-Plattform und deine Prozesse darauf ausgelegt sind, das zu verhindern.

In Deutschland ist die Lage 2026 nicht mehr theoretisch: Im April 2026 warnte das BKA vor einer massiven KI-Phishing-Welle, die Kunden von Sparkassen, Volksbanken, Deutscher Bank und N26 trifft. Über 200 Sparkassen-Kunden haben Deepfake-Videokonferenz-Betrug erlebt. Die BaFin verweist Finanzinstitute auf ihre Pflichten aus dem DORA (Digital Operational Resilience Act), der seit Januar 2025 IKT-Risikomanagement-Anforderungen festlegt – und Deepfake-basiertes Phishing fällt klar in diesen Scope.

Dieser Artikel zeigt, wie Deepfake-Bedrohungen in Video-Umgebungen funktionieren, warum deine aktuellen Schutzmaßnahmen eine kritische Lücke haben können, und wie wirksamer Schutz 2026 und darüber hinaus aussieht.

Inhaltsverzeichnis

  1. Das Ausmaß der Deepfake-Bedrohung
  2. Wie Deepfakes Video-Calls konkret bedrohen
  3. Die Authentifizierungs-Lücke: Warum Verschlüsselung allein nicht reicht
  4. Verteidigungs-Ansätze, die wirklich funktionieren
  5. DACH-Perspektive: BKA, BSI, BaFin und DORA
  6. Wie Digital Samba die Authentizität der Teilnehmer schützt
  7. Eine Deepfake-Verteidigungs-Strategie aufbauen
  8. FAQ

Das Ausmaß der Deepfake-Bedrohung

Der Arup-Fall war kein Einzelereignis. Er war eine Vorschau.

Der Markt für Deepfake-Erkennung erzählt die Geschichte in Zahlen. Mit aktuell 5,5 Milliarden US-Dollar bewertet, soll er bis 2026 auf 15,7 Milliarden US-Dollar wachsen – eine jährliche Wachstumsrate von 42 Prozent, laut einer Analyse von Deloitte vom November 2024. So viel investiert niemand, wenn die Bedrohung nicht real und wachsend ist.

Die menschliche Seite ist noch alarmierender. Eine Untersuchung von Keepnet ergab, dass Menschen Deepfakes nur in 24,5 Prozent der Fälle korrekt identifizieren. Das ist schlechter als ein Münzwurf – und bedeutet, dass deine Mitarbeiter die falsche letzte Verteidigungslinie gegen einen Deepfake-Betrug per Video-Call sind.

Die Exposition für Unternehmen ist stark gestiegen. Resemble AI hat allein im Q3 2025 980 Unternehmens-Infiltrationsfälle mit synthetischen Medien dokumentiert, basierend auf globalem Media-Monitoring in diesem Zeitraum. Das waren keine Phishing-Mails oder Smishing-Angriffe – das waren koordinierte Versuche, Unternehmen über KI-generierte Personas in Video-Calls zu infiltrieren. Gartner prognostiziert, dass bis 2027 50 Prozent der Unternehmen in Desinformations-Security-Produkte und -Strategien investieren werden, gegenüber weniger als 5 Prozent vor wenigen Jahren – mit der Erkenntnis, dass klassische Verteidigung gegen generative KI nicht reicht.

Wenn dein Unternehmen Video-Calls für Onboarding, Vorstands-Freigaben, Finanz-Autorisierungen oder Compliance-Sign-offs betreibt, betrifft dich diese Bedrohung direkt.

Wie Deepfakes Video-Calls konkret bedrohen

Kann man einen Video-Call fälschen? Die unbequeme Antwort 2026 lautet: ja. Überzeugend, in Echtzeit und zu relativ niedrigen Kosten.

In einer Deepfake-Video-Call-Umgebung gibt es drei primäre Angriffsvektoren:

  • Face Swapping und synthetische Video-Feeds. Ein Angreifer sammelt Video-Material des Ziels (von LinkedIn, YouTube-Interviews, Firmen-Websites oder geleakten Aufnahmen) und legt das Gesicht in Echtzeit über sein eigenes – per generativem Modell. Das Ergebnis ist ein Live-Feed, der das Gesicht des Opfers mit natürlich wirkenden Kopfbewegungen, Blinzeln und realistischem Lip-Sync zeigt. Was früher nur in der Post-Produktion ging, läuft heute mit Sub-Sekunden-Latenz.
  • Voice Cloning. Unabhängig vom Video kann Voice Cloning Sprachmuster, Akzent und Sprechrhythmus aus 3 bis 5 Minuten Audio replizieren. Kombiniert mit Face Swapping entsteht eine vollständig synthetische audiovisuelle Persona. Ein gefälschter Video-Call mit geklontem CFO, der eine Überweisung verbal absegnet, ist für menschliche Augen und Ohren vom Original nicht zu unterscheiden.
  • Injizierte synthetische Video-Streams. Raffiniertere Angriffe umgehen die Kamera komplett. Statt einen Live-Webcam-Feed zu modifizieren, schleusen Angreifer per virtueller Kamera-Software einen vorgenerierten oder KI-synthetisierten Video-Stream direkt in den Konferenz-Client. Die Plattform empfängt scheinbar einen legitimen Kamera-Feed; auf Angreifer-Seite ist keine Echtzeit-Verarbeitung nötig.

Diese Fähigkeiten treiben mehrere Angriffs-Kategorien:

  • CEO-Impersonation und Finanzbetrug: genau das, was bei Arup passiert ist. Der Angreifer synthetisiert eine Führungskraft und autorisiert über die Persona Transaktionen oder Zugriffe.
  • Recruiting-Betrug: synthetische Bewerber durchlaufen Vorstellungsgespräche, bestehen Screenings und erhalten Anstellung oder Zugang zu internen Systemen. Das FBI hat genau dieses Muster bereits 2022 gewarnt; die Frequenz ist seither deutlich gestiegen.
  • KYC-Umgehung: Angreifer nutzen synthetische Identitäten, um Video-KYC-Prüfungen bei Finanzinstituten zu bestehen.
  • KI-Impersonation in Videokonferenzen: synthetische Vorstandsmitglieder, Investoren oder Regulatoren in Calls, um Entscheidungen zu manipulieren oder sensible Informationen abzugreifen.

Video-Calls sind dafür einzigartig anfällig – aus einem einfachen Grund: Wir sind darauf trainiert, dem zu glauben, was wir in einem Video-Call sehen und hören, in einer Weise, in der wir das bei einer E-Mail nie täten. Eine verdächtige E-Mail wird hinterfragt. Ein selbstbewusst auftretender, visuell überzeugender "CFO" auf dem Bildschirm wird geglaubt – besonders, wenn die Bitte als dringend und vertraulich gerahmt ist.

Die Authentifizierungs-Lücke: Warum Verschlüsselung allein nicht reicht

Viele Organisationen denken nach diesen Bedrohungs-Beschreibungen sofort an ihre Verschlüsselung. Ende-zu-Ende-Verschlüsselung, TLS in transit, AES-256 at rest. Deckt das nicht alles ab?

Verschlüsselung schützt den Kanal. Sie verifiziert nicht, wer am anderen Ende sitzt.

Stell dir das so vor: Ein versiegelter Umschlag garantiert, dass niemand den Brief unterwegs geöffnet hat. Er sagt aber nichts darüber, ob der Absender derjenige ist, der er zu sein vorgibt. Bei Videokonferenzen verhindert Verschlüsselung, dass Dritte deinen Call abfangen. Sie verhindert nicht, dass ein Angreifer, der das Gesicht des CFO bereits synthetisiert hat, als authentifizierter Teilnehmer dem Call beitritt.

Das ist die Authentifizierungs-Lücke – und genau hier hat die Video-Sicherheits-Architektur vieler Unternehmen einen blinden Fleck.

Zwei breite Ansätze haben sich entwickelt, um sie zu schließen:

  • KI-basierte Deepfake-Erkennung analysiert Video-Streams in Echtzeit und sucht nach Synthese-Artefakten – unnatürlichen Blink-Mustern, Edge-Anomalien um das Gesicht, Inkonsistenzen in der Beleuchtung oder Mikroexpressions-Irregularitäten, die generative Modelle noch nicht perfekt nachbilden. Die Herausforderung: Erkennungs-Modelle hinken Generierungs-Modellen immer hinterher. Sobald Synthese-Qualität steigt, sinkt Erkennungsgenauigkeit. Es ist ein Wettrüsten, und die Erkennungsseite läuft hinterher.
  • Kryptografische Identitätsprüfung wählt einen anderen Weg. Statt den Fake nach Beitritt zu spotten, sorgt kryptografische Verifikation dafür, dass nur vorab geprüfte, authentifizierte Teilnehmer überhaupt beitreten können. Die Identitätsprüfung passiert vor der Session, nicht währenddessen. Das ist kein KI-Problem, sondern ein Zugangskontroll-Problem, das man von Anfang an richtig designt.

Die stärksten Sicherheits-Architekturen kombinieren beides. Aber wenn du wählen musst, wo du zuerst investierst, ist die kryptografische Ebene das verlässlichere Fundament.

Verteidigungs-Ansätze, die wirklich funktionieren

KI-basierte Deepfake-Erkennungs-Tools

Eine Kategorie dedizierter Deepfake-Erkennungs-Tools hat sich entwickelt, um das Echtzeit-Identifikations-Problem zu adressieren:

  • Facia, mit Liveness-Erkennung und biometrischer Analyse;
  • Reality Defender, mit probabilistischer Erkennung über mehrere Modalitäten;
  • Pindrop, mit Fokus auf Voice-basierte Deepfake-Erkennung;
  • UncovAI, mit Frame-Level-Analyse von Video-Artefakten.

Zoom rollt zudem eingebaute Deepfake-Erkennung als Teil der Workplace-Plattform aus, einschließlich einer im frühen 2026 angekündigten Integration mit Pindrop für Contact-Center-Use-Cases.

Diese Tools verbessern sich schnell, haben aber inhärente Grenzen. Erkennungs-Genauigkeit sinkt, sobald Generierungs-Qualität steigt. Sie brauchen Integration in bestehende Konferenz-Workflows und erzeugen False Positives, die für legitime Teilnehmer Reibung verursachen – in regulierten Umgebungen ein echtes Problem, weil Vorstandscalls keine Unterbrechungen vertragen.

Als eine Schicht im Verteidigungs-Stack bringen sie echten Wert. Als primärer Schutz reichen sie nicht.

Kryptografische Identitätsprüfung

Lösungen rund um kryptografische Identitätsprüfung adressieren einen anderen Teil des Problems. Statt zu analysieren, wie jemand aussieht, bestätigen sie, dass die beitretende Person eine geprüfte Identitäts-Prüfung passiert hat und eine gültige, nicht-fälschbare Session-Credential hält.

Das passiert über token-basierte Authentifizierungs-Systeme, bei denen die Identität vor dem Call zugesichert wird. Ein Teilnehmer kann ohne kryptografisch signiertes Token, das einer geprüften Identität ausgestellt wurde, nicht beitreten. Wer versucht, mit einem synthetischen Gesicht einen Kollegen zu imitieren, hat dieses Token nicht – und kommt nicht rein.

Token-Authentifizierung hat aber eine klare Grenze. Sie prüft die Credential beim Eintritt, nicht das Gesicht auf dem Bildschirm während des Calls. Wenn ein legitim authentifizierter Teilnehmer einmal drin ist, sieht die Token-Ebene einen Face-Swap auf dessen Gerät nicht. Ein Insider mit gültigem Token oder ein Angreifer, der per Social Engineering an ein Token gekommen ist, kann in der Session weiterhin impersonieren. Token-Auth ist eine starke erste Kontrolle – aber nicht die ganze Antwort.

C2PA und Content-Provenienz-Standards

Der C2PA-Standard (Coalition for Content Provenance and Authenticity) wird von Gründungs-Mitgliedern wie Adobe, Arm, BBC, Intel, Microsoft und Truepic getragen. Er liefert ein Framework, mit dem Medien zum Zeitpunkt der Aufnahme kryptografisch signiert werden – das erzeugt eine prüfbare Provenienz-Kette, die einen Video-Stream zurück zu einem konkreten, authentifizierten Gerät verfolgt. Auf Videokonferenzen angewandt, erlaubt das einer Plattform, zu attestieren, dass ein Stream von einem echten Gerät stammt – nicht von einem synthetischen Generator.

C2PA-Adoption in Live-Videokonferenz ist noch früh. C2PA 2.3, veröffentlicht im Dezember 2025, hat den Standard auf Live-Streaming ausgeweitet, aber die Implementierung in Konferenz-Clients ist noch experimentell. Bekannte Limitation: Viele Plattformen entfernen eingebettete Metadaten beim Transcoding, was die Provenienz-Kette bricht. Lösbare Probleme – und C2PA bleibt die vielversprechendste langfristige Architektur-Richtung für Deepfake-Video-Call-Erkennung im Maßstab.

Liveness-Erkennung und Verhaltens-Challenges

Liveness-Erkennung verlangt von Teilnehmern zufällige physische Aktionen – einem bewegten Objekt folgen, den Kopf in einen bestimmten Winkel drehen, auf Kommando blinzeln –, die generative Modelle nicht in Echtzeit antizipieren und synthetisieren können. Kombiniert mit Challenge-Response-Protokollen erhöht Liveness-Erkennung die Kosten für KI-Video-Call-Impersonation deutlich.

Aber: Liveness-Erkennung ist am stärksten gegen Presentation-Attacken (jemand hält ein Foto oder spielt ein Video vor die Kamera). Gegen die oben beschriebenen Injected-Stream-Angriffe, bei denen ein synthetischer Feed direkt in die Video-Pipeline eingespeist wird und auf Challenges reagieren kann, ist sie schwächer. Behandle sie als eine Schicht, nicht als alleinigen Schutz.

Zero Trust für Video-Identität

Das Zero-Trust-Prinzip ("never trust, always verify") überträgt sich direkt auf Videokonferenz-Sicherheit. Ein Zero-Trust-Framework für Video-Identität heißt:

  • Jeder Teilnehmer wird vor Beitritt authentifiziert, nicht als legitim angenommen, weil er den Link hat
  • Session-Credentials sind scoped, kurzlebig und kryptografisch signiert
  • Rollen-Berechtigungen werden serverseitig durchgesetzt und können vom Client aus nicht eskaliert werden
  • Jedes Authentifizierungs-Ereignis wird für Audit-Zwecke geloggt

DACH-Perspektive: BKA, BSI, BaFin und DORA

Für Unternehmen in Deutschland, Österreich und der Schweiz ist das Thema 2026 keine theoretische Übung mehr. Vier deutsche Behörden geben jetzt konkrete Orientierung – und Pflichten.

BKA – aktive Warnung

Im April 2026 warnte das Bundeskriminalamt vor einer KI-Phishing-Welle gegen Kunden von Sparkassen, Volksbanken, Deutscher Bank und N26. Über 200 Sparkassen-Kunden wurden mit Deepfake-Videokonferenz-Betrug konfrontiert. Das Muster: Phishing-Mail, gefolgt von einem Video-Call mit synthetischem "Bankberater". Wer das BKA-Lagebild kennt, ordnet einen verdächtigen Video-Call schneller ein.

BSI – offizielle Empfehlung

Das Bundesamt für Sicherheit in der Informationstechnik führt einen eigenen Themenbereich "Deepfakes – Gefahren und Gegenmaßnahmen". Im Mai 2026 hat das BSI mit der Polizeilichen Kriminalprävention der Länder und des Bundes (ProPK) die gemeinsame Erhebung "Online-Betrug und Künstliche Intelligenz" vorgelegt. Kernbefund: Nutzer überschätzen ihre eigene Fähigkeit, Deepfakes zu erkennen, deutlich. Damit ist die menschliche Erkennung dokumentiert als unzuverlässige Verteidigungslinie.

BaFin und DORA – regulatorischer Rahmen für Finanzinstitute

Die BaFin verweist Finanzinstitute auf den Digital Operational Resilience Act (DORA), der seit Januar 2025 gilt. DORA verlangt IKT-Risikomanagement, Drittparteien-Management und Incident-Reporting. Deepfake-basiertes Social Engineering fällt klar in den Scope: Wer als reguliertes Institut keine technischen und organisatorischen Schutzmaßnahmen gegen synthetische Identitäten dokumentiert, ist dort einen Schritt im Rückstand.

EU AI Act Artikel 50 – Offenlegungspflicht

Ergänzend gilt: Artikel 50 des EU AI Act, in Anwendung seit August 2024, verlangt von Organisationen, die KI-Systeme einsetzen, die synthetische Videos oder Audios von realen Personen erzeugen, eine Offenlegung gegenüber den Empfängern. Für Unternehmen in Finanzdienstleistung, Recht und Compliance entsteht damit rechtliche Exposition über den reinen Betrugsschaden hinaus.

Praktische Konsequenz

Für DACH-Käufer reicht es 2026 nicht, "wir nutzen Verschlüsselung" zu sagen. Beschaffungs-Verantwortliche fragen konkret: Wie wird Teilnehmer-Identität vor Beitritt verifiziert? Wo läuft die KI, die Transkripte erzeugt? Welche Audit-Logs liegen vor? Welche AV-Verträge sind geschlossen? Eine Videokonferenz-Plattform, die diese Fragen nicht sauber beantwortet, kommt durch keine DORA-Prüfung – und in der öffentlichen Verwaltung durch keine NIS2-Risikoanalyse.

Wie Digital Samba die Authentizität der Teilnehmer schützt

Video-Call-Identitätsprüfung bei Digital Samba folgt einem grundlegend anderen Modell als KI-basierte Erkennung. Der Ansatz ist architektonisch: nicht-verifizierte Teilnehmer von vornherein draußen halten, statt synthetische Medien nach dem Auftauchen auf dem Bildschirm zu identifizieren.

E2EE mit Security Verification Codes

Die Ende-zu-Ende-Verschlüsselung von Digital Samba enthält Security Verification Codes – kurze kryptografische Fingerabdrücke, abgeleitet aus den Schlüsseln der Session. Wenn zwei Teilnehmer ihre Verification Codes out-of-band vergleichen (per Stimme, Nachricht oder visuell), bestätigen sie kryptografisch, dass kein Man-in-the-Middle dazwischen sitzt und dass beide Seiten genuin mit derselben verschlüsselten Session verbunden sind.

Das ist keine KI-Video-Call-Analyse. Das ist mathematischer Beweis. Stimmen die Codes überein, ist die Session authentisch. Der Check kann durch einen synthetischen Video-Feed nicht gefälscht werden – ein Angreifer müsste die kryptografischen Schlüssel kompromittieren, um einen passenden Code zu erzeugen, nicht nur ein Gesicht replizieren.

Token-Authentifizierung: verifiziert vor Beitritt

Jede Digital-Samba-Session lässt sich so konfigurieren, dass für den Eintritt ein signiertes Authentifizierungs-Token verlangt wird. Diese Tokens stellt die Plattform an Teilnehmer aus, die deine Host-Anwendung vorab geprüft hat. Ein Teilnehmer ohne gültiges, nicht-abgelaufenes Token kommt schlicht nicht rein.

In der Praxis startet Deepfake-Schutz an deiner Nutzer-Verwaltung. Wer das Token ausstellt, kontrolliert, wer reinkommt. Wenn Onboarding-, HR- oder Finanzsysteme nur an geprüfte Identitäten Tokens ausgeben, können synthetische Teilnehmer keine Credentials für deinen Call bekommen. Das setzt voraus, dass dein Identity-Management vorgelagert sicher ist – Token-Auth ist nur so stark wie der Issuance-Prozess dahinter.

Rollenbasierte Zugriffskontrolle: keine Privilegien-Eskalation

Das RBAC-System von Digital Samba läuft serverseitig. Teilnehmer treten mit einer konkreten Rolle bei (Host, Moderator oder Teilnehmer) und können ihre Berechtigungen nicht über Client-Manipulation eskalieren. Das zählt in KI-Impersonations-Szenarien, in denen ein Angreifer Host- oder Moderator-Rechte erlangen will, um Inhalte zu manipulieren, legitime Teilnehmer zu entfernen oder auf geteilte Ressourcen zuzugreifen.

KI-Verarbeitung auf selbst gehosteter Infrastruktur

Digital Samba betreibt alle KI-Funktionen (Transkription, Live-Untertitel, Meeting-Zusammenfassungen) ausschließlich auf selbst gehosteten Modellen. Keine Meeting-Audio-, -Video- oder -Inhalte gehen an Drittparteien-KI-Anbieter zur Verarbeitung.

Für sicherheitsbewusste Organisationen zählt das für Daten-Eingrenzung: Plattformen, die Meeting-Inhalte über externe KI-Dienste leiten, schaffen Exposition gegenüber Infrastruktur, die du weder kontrollierst noch auditieren kannst. Der Digital-Samba-Ansatz hält Meeting-Daten innerhalb der eigenen Plattform-Infrastruktur – und dasselbe Prinzip gilt für künftige KI-Identitäts-Features, sobald die Capability reift.

Eine Deepfake-Verteidigungs-Strategie aufbauen

Ein Deepfake-Video-Call-Angriff auf dein Unternehmen wird unwahrscheinlich von einer einzigen Kontrolle gestoppt. Der widerstandsfähigste Ansatz ist geschichtet:

  1. Schicht 1: Prävention über Zugangskontrolle. Token-Authentifizierung und RBAC verhindern, dass nicht-verifizierte Teilnehmer überhaupt beitreten. Das ist deine wertvollste Kontrolle. Wer nicht in den Call kommt, kann den Angriff nicht durchführen.
  2. Schicht 2: Kryptografische Session-Verifikation. E2EE mit Security Verification Codes liefert mathematische Bestätigung, dass Sessions authentisch und nicht kompromittiert sind. Deine Zusicherungs-Ebene für High-Stakes-Calls.
  3. Schicht 3: Echtzeit-Erkennung. Setze dediziertes Deepfake-Video-Call-Tooling als zusätzliches Signal ein, nicht als primäre Kontrolle. Nutze es, um Anomalien für menschliche Prüfung zu markieren – nicht als automatisches Gate, das inakzeptable False-Positive-Raten erzeugt.
  4. Schicht 4: Menschliche Protokolle. Etabliere Out-of-Band-Verifikation für hochriskante Anfragen. Jede Finanz-Autorisierung, jeder sensible Daten-Zugriff, jede strategische Entscheidung in einem Video-Call wird über einen separaten Kanal bestätigt, bevor jemand handelt. Schule Mitarbeiter, die Bedingungen zu erkennen, die Deepfake-Betrug überhaupt ermöglichen: künstliche Dringlichkeit, Anweisungen zum Überspringen normaler Freigabeschritte und Bitten um Vertraulichkeit. Im Arup-Fall hätte ein einziger Anruf beim echten CFO unter einer bekannten Nummer den Betrug sofort offengelegt. Schicht 4 allein hätte ihn gestoppt.
  5. Schicht 5: Audit und Reaktion. Logge alle Authentifizierungs-Ereignisse, Session-Teilnehmer und Zugangskontroll-Entscheidungen. Wenn ein Vorfall eintritt, brauchst du einen vollständigen forensischen Record: wer ist wann mit welcher Credential beigetreten?

Die Deepfake-Video-Call-Bedrohung wird nicht zurückgehen. Generierungs-Technologie wird Monat für Monat schneller, günstiger und zugänglicher. Widerstandsfähig werden die Organisationen sein, die Video-Call-Identität als Sicherheits-Domäne behandeln – nicht als technische Bequemlichkeit.

FAQ

Was war der 25-Millionen-Dollar-Deepfake-Video-Call-Betrug?

Im Januar 2024 wurde ein Mitarbeiter bei Arup, einem globalen Ingenieurbüro, dazu gebracht, 200 Millionen HK-Dollar (rund 25 Millionen US-Dollar) zu überweisen, nachdem er an einem Video-Call teilgenommen hatte, bei dem alle anderen Teilnehmer – einschließlich des CFO – KI-generierte Deepfakes waren. Der Angriff begann mit einer Phishing-Mail; der Mitarbeiter wurde per Social Engineering in den Call geleitet und trat freiwillig bei. Es bleibt einer der größten bestätigten Fälle von Deepfake-Video-Call-Betrug gegen ein Unternehmen. Die echte Lehre: Technische Kontrollen müssen mit Prozess-Kontrollen kombiniert werden – konkret mit der Praxis, hochriskante Bitten über einen separaten Kanal zu verifizieren, bevor man handelt.

Lassen sich Deepfakes in einem Video-Call in Echtzeit erkennen?

Ja, mit Vorbehalt. Dedizierte Deepfake-Erkennungs-Tools von Anbietern wie Reality Defender und Facia analysieren Video-Streams in Echtzeit auf Synthese-Artefakte. Zoom rollt zudem native Erkennungs-Features aus. Aber: Erkennungs-Genauigkeit ist eine laufende Herausforderung, weil sie sinkt, sobald Generierungs-Technologie besser wird – aktuelle Systeme sind nicht zuverlässig genug als alleinige Kontrolle. Stärker ist es, nicht-verifizierte Teilnehmer von vornherein draußen zu halten – per Token-Authentifizierung und kryptografischer Session-Verifikation –, und Echtzeit-Erkennung als zusätzliches Signal zu behandeln.

Wie verhindern E2EE-Security-Verification-Codes Impersonation?

Wenn eine Digital-Samba-Session Ende-zu-Ende-Verschlüsselung nutzt, erzeugt jede Session einen kryptografischen Fingerabdruck aus den gemeinsamen Schlüsseln. Teilnehmer vergleichen diese Verification Codes out-of-band, um zu bestätigen, dass sie genuin mit derselben verschlüsselten Session verbunden sind. Ein synthetischer Video-Teilnehmer kann ohne Zugriff auf die echten Schlüssel keinen passenden Code erzeugen – stimmen die Codes überein, ist die Session mathematisch als authentisch bestätigt.

Gibt es kostenlose Tools, um Deepfakes in Video-Calls zu erkennen?

Mehrere kostenlose oder Freemium-Tools existieren für Post-Hoc-Analyse, bei der du ein Video im Nachhinein hochlädst. Echte Echtzeit-Erkennung während eines Live-Calls läuft überwiegend über kommerzielle Enterprise-Produkte. Microsoft hat Erkennungs-Signale in Teams integriert; Zoom rollt eingebaute Features aus. Open-Source-Modelle wie FaceForensics++ lassen sich self-hosten – ihre Integration in Live-Konferenz erfordert aber erheblichen Engineering-Aufwand. Für die meisten Unternehmen ist die kosteneffizientere Investition Zugangskontrolle, damit synthetische Teilnehmer gar nicht erst beitreten.

Welche Branchen sind am stärksten von Video-Call-Deepfakes betroffen?

Finanzdienstleistung führt mit deutlichem Abstand. Die Kombination aus hohen Transaktionsbeträgen und Video-Call-Autorität macht sie zum Primärziel. Anwaltskanzleien und professionelle Dienstleister werden zur Informations-Extraktion attackiert, mit synthetischen Mandanten oder Gegenparteien, die in Calls sensible Informationen abrufen. Recruiting- und HR-Funktionen werden zur Infiltration genutzt, mit synthetischen Bewerbern, die Interviews bestehen und Anstellungs-Zugang erlangen. Kritische Infrastruktur, Gesundheitswesen und Behörden werden zunehmend von staatsnahen Akteuren mit KI-Impersonation in Videokonferenzen anvisiert.

Für Organisationen unter EU-Recht kommt eine regulatorische Dimension dazu. Artikel 50 des EU AI Act, in Anwendung seit August 2024, verlangt von Organisationen, die KI-Systeme einsetzen, die synthetische Videos oder Audios von realen Personen erzeugen, dies gegenüber Empfängern offenzulegen. Für Unternehmen in Finanz, Recht und Compliance entsteht damit rechtliche Exposition über den reinen Betrugsschaden hinaus.

Was bedeutet das konkret für DACH-Unternehmen unter DORA und NIS2?

DORA (seit Januar 2025) verlangt von Finanzinstituten IKT-Risikomanagement, Drittparteien-Management und Incident-Reporting – Deepfake-basiertes Social Engineering fällt in diesen Scope. NIS2 (in Deutschland: NIS2UmsuCG seit Dezember 2025) verlangt von rund 29.500 deutschen Unternehmen in 18 Sektoren konkrete Sicherheits-Maßnahmen, einschließlich Schulungen, Risikoanalyse und Multifaktor-Authentifizierung. Für beide Regime gilt: Videokonferenz-Plattformen, die Teilnehmer-Identität nicht kryptografisch absichern, sind ein dokumentierbares Compliance-Risiko.

Video-Calls gegen Deepfake-Betrug absichern

Der Arup-Fall hat einen Proof of Concept geliefert, den die Security-Community nicht ignorieren kann: Ein hinreichend überzeugender Deepfake-Video-Call kann selbst geschulte Profis dazu bringen, katastrophale Finanz-Entscheidungen zu autorisieren. Die Technologie dahinter ist seither nur zugänglicher und überzeugender geworden.

Die Antwort ist nicht, Video-Calls zu meiden – sie sind zu wertvoll, um sie aufzugeben. Die Antwort ist, sie wie jeden anderen hochriskanten Kommunikationskanal abzusichern: mit verifizierter Identität am Eingang, kryptografischer Session-Integrität und geschichteten Kontrollen, die nicht allein auf menschlicher visueller Wahrnehmung beruhen.

Der Digital-Samba-Ansatz basiert auf Token-Authentifizierung vor Beitritt, E2EE mit kryptografischen Verification Codes, serverseitigem RBAC und selbst gehosteter KI-Verarbeitung. Zusammen decken sie die Plattform-Ebene. In Kombination mit klaren Prozess-Protokollen für Out-of-Band-Verifikation adressieren sie sowohl die technischen als auch die Prozess-Lücken, die der Arup-Fall offengelegt hat.

Sprich mit unserem Team, um die Video-Sicherheits-Anforderungen deiner Organisation zu besprechen und diese Features in Aktion zu sehen.