Detección de deepfakes en videollamadas | Guía 2026

Escrito por Digital Samba | mayo 20, 2026

En enero de 2024, un empleado del departamento financiero de Arup, la multinacional de ingeniería, recibió lo que parecía una invitación rutinaria a una videollamada. La invitación llegó tras un correo de phishing sobre una «transacción secreta» que le había generado sospechas. En lugar de dar la alarma, se unió a la llamada, y lo que vio disipó todas sus dudas: el CFO estaba en pantalla, varios compañeros conocidos estaban presentes y había una solicitud urgente de transferencia bancaria en la agenda. Todo parecía normal. Todo sonaba normal.

Nada era real.

Cada persona en esa llamada era un deepfake: el CFO, los compañeros, la reunión entera. Todo era vídeo sintético generado por IA en tiempo real. El atacante no había vulnerado ningún control de acceso de la plataforma; el empleado se unió voluntariamente tras ser conducido a la llamada mediante ingeniería social. Cuando se descubrió el fraude, se habían transferido 200 millones de dólares de Hong Kong (aproximadamente 25 millones de dólares estadounidenses) fuera de las cuentas de la empresa. Sigue siendo el mayor caso confirmado de fraude por videollamada con deepfake contra una empresa.

El caso Arup no se quedó en titular. Cambió la forma en que los profesionales de seguridad piensan sobre la videoconferencia. Si un profesional financiero cualificado puede ser engañado para autorizar una transferencia de 25 millones de dólares mediante una videollamada sintética, la pregunta ya no es si tu organización podría ser víctima de este tipo de ataque. La pregunta es si tu plataforma de vídeo y tus procesos están diseñados para evitarlo.

Este artículo analiza cómo funcionan las amenazas de deepfake en entornos de vídeo, por qué tus defensas actuales pueden tener una laguna crítica, y qué protección genuinamente eficaz se necesita en 2026 y en adelante.

Índice

La magnitud de la amenaza deepfake
Cómo los deepfakes amenazan las videollamadas
La brecha de autenticación: por qué el cifrado no basta
Enfoques de defensa que realmente funcionan
Cómo Digital Samba protege la autenticidad de los participantes
Construir una estrategia de defensa contra deepfakes
Conclusión: defender las videollamadas frente al deepfake
Preguntas frecuentes (FAQ)

La magnitud de la amenaza deepfake

El caso Arup no fue un incidente aislado. Fue un anticipo.

El mercado de detección de deepfakes lo cuenta en números. El sector, valorado en 5.500 millones de dólares en 2023, alcanzará los 15.700 millones en 2026 según proyecciones de analistas citados por Deloitte en noviembre de 2024, con una tasa compuesta anual del 42 %. Ese nivel de inversión no se produce a menos que la amenaza sea real y creciente.

El factor humano es aún más alarmante. Una investigación de Keepnet descubrió que las personas identifican correctamente los deepfakes solo el 24,5 % de las veces, peor que lanzar una moneda al aire. Tus empleados son la línea de defensa equivocada contra una videollamada fraudulenta con deepfake.

La exposición empresarial se ha acelerado bruscamente. Resemble AI rastreó 980 casos de infiltración corporativa mediante medios sintéticos solo en el tercer trimestre de 2025. No eran correos de phishing; eran intentos coordinados de infiltrar empresas a través de personas generadas por IA en videollamadas. Gartner proyecta además que para 2027 el 50 % de las empresas invertirá en productos y estrategias de seguridad contra la desinformación, frente a menos del 5 % a finales de 2025.

En España, el fraude cibernético impulsado por IA ha superado al ransomware como principal preocupación de los CEO en 2026. Las empresas españolas sufrieron de media 1.911 ataques cibernéticos a la semana en el primer trimestre de 2025, un 66 % más que en 2024 (Check Point Research, Q1 2025). Los intentos de fraude con deepfakes se multiplicaron por diez entre 2022 y 2023 (Sumsub, 2024). INCIBE gestionó más de 122.000 incidentes en 2025, un 26 % más que el año anterior, y las pérdidas globales por fraude con deepfakes alcanzaron los 929 millones de euros ese mismo año, el triple que en 2024 (EscudoDigital). INCIBE ha documentado casos reales de suplantación de CEO mediante clonación de voz en empresas españolas. Si tu organización realiza videollamadas para incorporaciones, aprobaciones ejecutivas, autorizaciones financieras o firmas de cumplimiento normativo, esta amenaza te afecta directamente.

Cómo los deepfakes amenazan las videollamadas

¿Se puede falsificar una videollamada? La respuesta incómoda en 2026 es sí. Se puede hacer de forma convincente, en tiempo real y a un coste relativamente bajo. Existen incluso servicios «Deepfake-as-a-Service» (DaaS) que ponen esta tecnología al alcance de delincuentes de cualquier nivel.

Los atacantes cuentan con distintas vías de entrada en un entorno de videollamada:

Intercambio de rostros y vídeo sintético en tiempo real. Un atacante captura vídeo de su objetivo (de LinkedIn, entrevistas en YouTube, webs corporativas o grabaciones filtradas) y usa un modelo generativo para mapear ese rostro sobre el suyo en tiempo real. El resultado es un flujo de vídeo en directo que muestra el rostro de la víctima con movimientos de cabeza, parpadeos y sincronización labial de aspecto natural. Herramientas que antes solo podían hacer esto en postproducción ahora operan con latencia inferior al segundo.
Clonación de voz. Por separado del vídeo, la clonación de voz puede replicar los patrones de habla, el acento y la cadencia de una persona a partir de tan solo unos segundos o un par de minutos de audio. Combinada con el intercambio de rostros, los atacantes pueden producir una persona audiovisual completamente sintética. Una videollamada falsa de un CFO clonado dando aprobación verbal para una transferencia bancaria es, para el oído y el ojo humanos, algo que cualquiera tomaría por auténtico.
Flujos de vídeo sintético inyectados. Los ataques más sofisticados evitan la cámara por completo. En lugar de modificar un flujo de webcam en directo, los atacantes usan software de cámara virtual para inyectar un flujo de vídeo pregenerado o sintetizado por IA directamente en el cliente de videoconferencia. La plataforma recibe lo que parece un flujo de cámara legítimo, sin necesidad de procesamiento en tiempo real por parte del atacante.

Estas capacidades alimentan varias categorías de ataque real:

Suplantación de CEO y fraude financiero: exactamente lo que ocurrió en Arup. Un atacante sintetiza a un directivo senior y usa esa identidad para autorizar transacciones o accesos.
Fraude en procesos de selección: candidatos sintéticos asisten a entrevistas de trabajo, pasan la criba y obtienen empleo o acceso a sistemas internos. El FBI emitió una alerta sobre este patrón exacto en 2022, y la frecuencia ha crecido significativamente desde entonces.
Bypass de KYC: atacantes usan identidades sintéticas para superar verificaciones de vídeo en entidades financieras.
Suplantación por IA en videoconferencias: miembros sintéticos del consejo, inversores o reguladores que aparecen en llamadas para manipular decisiones o extraer información sensible.

Las videollamadas son especialmente vulnerables por una razón sencilla: hemos sido entrenados para confiar en lo que vemos y oímos en una videollamada de una forma que jamás haríamos con un correo electrónico. Un email sospechoso se examina con lupa. Un «CFO» visual y auditivamente convincente en pantalla recibe credibilidad, especialmente cuando la solicitud se enmarca como urgente y confidencial.

La brecha de autenticación: por qué el cifrado no basta

Muchas organizaciones, tras leer sobre estas amenazas, piensan inmediatamente en su postura de cifrado. Cifrado de extremo a extremo, TLS en tránsito, AES-256 en reposo. ¿No cubre eso todo?

El cifrado protege el canal. No verifica quién está al otro lado.

Piénsalo así: un sobre sellado te certifica que nadie abrió la carta en tránsito. Pero no te dice nada sobre si la persona que la envió es quien dice ser. En videoconferencia, el cifrado impide que un tercero intercepte tu llamada. No hace nada para evitar que un atacante que ya ha sintetizado la cara del CFO participe en esa llamada como participante autenticado.

Esta es la brecha de autenticación, y ahí es donde la mayoría de las posturas de seguridad empresarial en vídeo tienen una laguna real.

Han surgido dos enfoques para cerrarla:

Detección de deepfakes basada en IA: analiza los flujos de vídeo en tiempo real e intenta identificar artefactos de síntesis como patrones de parpadeo no naturales, anomalías en los bordes del rostro, inconsistencias en la iluminación o irregularidades en las microexpresiones. El problema es que los modelos de detección siempre van por detrás de los modelos de generación. Es un pulso tecnológico permanente en el que la detección siempre va a remolque.
Verificación criptográfica de identidad: adopta un planteamiento distinto. En lugar de intentar detectar el deepfake después de que se haya unido a la llamada, la verificación criptográfica asegura que solo puedan unirse participantes previamente verificados y autenticados. La comprobación de identidad ocurre antes de la sesión, no durante ella. No es un problema de IA que resolver, sino un problema de control de acceso que hay que diseñar bien desde el principio.

Las posturas de seguridad más sólidas combinan ambos enfoques. Pero si tienes que elegir dónde invertir primero, la capa criptográfica es el cimiento más fiable.

Enfoques de defensa que realmente funcionan

Herramientas de detección de deepfakes basadas en IA

Ha surgido una categoría de herramientas dedicadas a la detección de deepfakes para abordar el problema de la identificación en tiempo real. Entre ellas están plataformas como Facia (detección de vida y análisis biométrico), Reality Defender (detección probabilística multimodal), Pindrop (identificación de deepfakes de voz) y UncovAI (análisis de artefactos de vídeo a nivel de fotograma).

Zoom anunció en marzo de 2026 una integración con Pindrop para detección de deepfakes específicamente en Zoom Contact Center (IVR y llamadas agente-cliente), no en reuniones internas de empresa.

Estas herramientas están mejorando rápidamente, pero tienen limitaciones inherentes. La precisión de detección se degrada a medida que mejora la calidad de generación. Normalmente requieren integración adicional en los flujos de trabajo de videoconferencia existentes, y generan falsos positivos que crean fricción para los participantes legítimos. Hay que tener en cuenta, además, que los estudios publicados entre 2021 y 2025 documentan disparidades de precisión según el grupo demográfico: las tasas de error para sujetos de etnia no caucásica pueden ser entre 1,5 y 3 veces más altas que para sujetos caucásicos masculinos, lo que supone tanto un riesgo práctico de accuracy como una consideración de no discriminación bajo el RGPD y el Reglamento de IA de la UE.

Como una capa dentro de un esquema de defensa, estas herramientas aportan valor real. Como control primario, no son suficientes.

Una nota sobre los datos biométricos: desplegar herramientas de análisis de vídeo y voz en tiempo real implica tratar datos biométricos, que son datos de categoría especial bajo el artículo 9 del RGPD (Reglamento General de Protección de Datos, GDPR en inglés). Antes de implementar cualquiera de estas soluciones, tu organización necesita una base legal adecuada, una Evaluación de Impacto sobre la Protección de Datos (EIPD), y obligaciones de transparencia frente a los participantes. La AEPD (Agencia Española de Protección de Datos) tiene guías específicas sobre tratamiento de IA y datos biométricos que conviene consultar antes de desplegar.

Verificación criptográfica de identidad

Las soluciones basadas en verificación criptográfica de identidad abordan una parte diferente del problema. En lugar de analizar cómo se ve alguien durante una llamada, la verificación criptográfica confirma que la persona que se une ya ha pasado una comprobación de identidad verificada y tiene una credencial de sesión válida e infalsificable.

Se implementa mediante sistemas de autenticación basados en tokens: la identidad se acredita antes de que comience la llamada. Un participante sin un token válido y no expirado simplemente no puede unirse.

La autenticación por token tiene un límite claro: verifica la credencial en la entrada, no la cara en pantalla durante la llamada. Una vez que un participante legítimamente acreditado se ha unido, la capa de tokens no puede detectar un face-swap que esté ejecutándose en su dispositivo. La autenticación por token es un primer control sólido; no es la respuesta completa por sí sola.

C2PA y estándares de procedencia de contenido

El estándar C2PA (Coalition for Content Provenance and Authenticity), respaldado por miembros fundadores como Adobe, ARM, BBC, Intel, Microsoft y Truepic, ofrece un marco para firmar criptográficamente los medios en el punto de captura, creando una cadena de procedencia verificable que vincula un flujo de vídeo a un dispositivo autenticado específico.

La adopción de C2PA en videoconferencia en directo está aún en fase temprana. C2PA 2.3, publicado en diciembre de 2025, extendió el estándar al streaming en directo, pero la implementación en clientes de videoconferencia sigue siendo experimental. Hay un matiz estructural importante: C2PA marca el contenido firmado, pero un atacante que use una herramienta sin firmar simplemente entrega un vídeo sin procedencia. Para que C2PA funcione como control real, las plataformas tendrían que aplicar una política de «sin firma = no se permite», algo que ningún cliente generalista hace todavía. Con esa salvedad, C2PA representa la dirección arquitectónica a largo plazo más prometedora para la detección de deepfakes en videollamadas a escala.

Detección de vida y desafíos conductuales

Los sistemas de detección de vida (liveness detection) requieren que los participantes realicen acciones físicas aleatorias (seguir un objeto en movimiento, girar la cabeza a un ángulo específico, parpadear a demanda) que los modelos generativos no pueden anticipar ni sintetizar en tiempo real. Combinados con protocolos de desafío-respuesta, elevan el coste de los ataques de suplantación por IA en videollamadas.

Eso sí, la detección de vida es más eficaz contra ataques de presentación (es decir, los que muestran un deepfake directamente frente a la cámara). Es más débil contra los ataques de flujo inyectado descritos antes. Trátala como una capa útil, no como una defensa autónoma.

Zero Trust para la identidad en vídeo

El principio Zero Trust, «nunca confíes, siempre verifica», es perfectamente aplicable a la seguridad de la videoconferencia. Un marco de identidad Zero Trust en vídeo exige que cada participante se autentique antes de unirse. Las credenciales de sesión tienen alcance limitado, vida corta y firma criptográfica. Los permisos de rol se aplican del lado del servidor y no pueden escalarse desde el cliente. Cada evento de autenticación queda registrado para auditoría.

Cómo Digital Samba protege la autenticidad de los participantes

Vamos al grano. Digital Samba sigue un planteamiento distinto al de la detección basada en IA. El enfoque es arquitectónico: impedir que participantes no verificados se unan desde el principio, en lugar de intentar identificar medios sintéticos después de que hayan aparecido en pantalla. Así es como lo implementa.

E2EE con códigos de verificación de seguridad

La implementación de cifrado de extremo a extremo de Digital Samba incluye códigos de verificación de seguridad: huellas criptográficas derivadas de las claves de cifrado de la sesión. Cuando dos participantes comparan sus códigos de verificación por un canal alternativo (por voz, por mensaje o visualmente), pueden confirmar que no hay ningún intermediario (man-in-the-middle) y que ambas partes están genuinamente conectadas a la misma sesión cifrada.

No es análisis de IA: es una prueba matemática. Si los códigos coinciden, la sesión es auténtica. La comprobación no puede ser falsificada por un flujo de vídeo sintético, porque el atacante necesitaría comprometer las claves criptográficas para generar un código coincidente, no solo replicar la cara de alguien.

Conviene tener en cuenta que el cifrado de extremo a extremo es incompatible con las funciones de transcripción o resumen del servidor: tendrás que decidir, sesión a sesión, cuál de los dos pesa más en tu caso.

Autenticación por token: verificado antes de unirse

Cada sesión de Digital Samba puede configurarse para requerir un token de autenticación firmado para entrar. Estos tokens se emiten a participantes que han sido previamente verificados por la aplicación anfitriona. Un participante sin un token válido y no expirado simplemente no puede unirse.

En la práctica, la defensa contra deepfakes comienza en tu capa de gestión de usuarios. Quien emite el token controla quién entra. Si tus sistemas de RRHH, onboarding o financieros emiten tokens solo a identidades verificadas, los participantes sintéticos no pueden obtener las credenciales necesarias para unirse a tus llamadas.

Control de acceso basado en roles: sin escalada de privilegios

El sistema RBAC de Digital Samba se aplica del lado del servidor. Los participantes se unen con un rol específico (anfitrión, moderador o participante) y no pueden escalar sus permisos mediante manipulación del lado del cliente. Esto importa en escenarios de suplantación por IA donde un atacante podría intentar obtener privilegios de anfitrión o moderador para manipular el contenido de la reunión.

Procesamiento de IA en jurisdicción europea

Las funciones con IA de Digital Samba (transcripción, subtítulos en directo, resúmenes de reuniones) se gestionan exclusivamente a través de un único subprocesador europeo: GreenPT B.V., con sede en Utrecht (Países Bajos). Eso significa que los datos de tus reuniones no salen del marco legal europeo, no se envían a hyperscalers estadounidenses ni quedan expuestos a la CLOUD Act. Los clientes B2B pueden consultar el Anexo B del DPA para una transparencia total sobre el tratamiento de datos.

Este enfoque cubre bien la capa de acceso. Para la detección en sesión de medios sintéticos, la integración con herramientas de detección dedicadas es el complemento adecuado.

Construir una estrategia de defensa contra deepfakes

Es poco probable que una estafa con deepfake en videollamada dirigida a tu organización sea detenida por un único control. Lo que mejor funciona es actuar por capas. Aquí tienes cómo articularlo:

Capa 1: Prevención mediante control de acceso. La autenticación por token y el RBAC impiden que participantes no verificados se unan. Este es tu control de mayor valor. Un atacante que no puede entrar en la llamada no puede ejecutar el ataque.
Capa 2: Verificación criptográfica de sesión. El E2EE con códigos de verificación confirma matemáticamente que las sesiones son auténticas y no han sido comprometidas. Úsalo en llamadas de alto riesgo donde verificar la identidad de los participantes sea prioritario.
Capa 3: Detección en tiempo real. Despliega herramientas dedicadas de detección de deepfakes como señal adicional, no como control primario. Úsalas para señalar anomalías para revisión humana, no como puerta automatizada.
Capa 4: Protocolos humanos. Establece procedimientos de verificación por canal alternativo para solicitudes de alto riesgo. Cualquier autorización financiera, acceso a datos sensibles o decisión estratégica tomada en una videollamada debe confirmarse por un canal separado antes de actuar. Forma a los empleados para reconocer las condiciones que hacen posible el fraude con deepfake: urgencia artificial, instrucciones para saltarse los pasos de aprobación normales, y peticiones de mantener la interacción confidencial. En el caso Arup, una simple llamada al CFO real a través de un número conocido habría expuesto el fraude inmediatamente.
Capa 5: Auditoría y respuesta. Registra todos los eventos de autenticación, participantes de sesión y decisiones de control de acceso. Cuando ocurra un incidente, necesitas un registro forense completo. En España, INCIBE ofrece soporte a través de su línea de ayuda en ciberseguridad (017) y su servicio de respuesta a incidentes INCIBE-CERT.

Conclusión: defender las videollamadas frente al deepfake

El caso Arup demostró algo que la comunidad de seguridad no puede ignorar: una videollamada con deepfake suficientemente convincente puede llevar incluso a profesionales cualificados a autorizar decisiones financieras catastróficas. La tecnología que lo hizo posible solo se ha vuelto más accesible y convincente desde entonces.

La respuesta no es desconfiar de las videollamadas, porque son demasiado valiosas para abandonarlas. La respuesta es protegerlas de la misma forma que proteges cualquier otro canal de comunicación de alto riesgo: con identidad verificada en el punto de acceso, integridad criptográfica de sesión y controles por capas que no dependan únicamente de la percepción visual humana.

La arquitectura es conocida. La combinación de controles de plataforma y protocolos humanos es la respuesta. Lo que el caso Arup demostró es lo que ocurre cuando no se tiene ninguno de los dos.

Descarga nuestro Whitepaper de Seguridad para los detalles técnicos completos, incluyendo especificaciones de cifrado, implementación de control de acceso y registro de auditoría.

Habla con nuestro equipo para analizar los requisitos de seguridad de vídeo de tu organización y ver estas funciones en acción.

Preguntas frecuentes (FAQ)

Ver post completo