Deepfake en videotrucades: què va passar a Arup i com defensar-se

16 min read
Jun 24, 2026 6:00:00 AM

El gener de 2024, una persona del departament de finances d'Arup, l'empresa multinacional d'enginyeria, va rebre el que semblava una invitació rutinària a una videotrucada. La invitació venia després d'un correu de phishing sobre una transacció confidencial que la persona havia trobat sospitós. En lloc d'alertar el seu equip, va unir-se a la videotrucada, i el que va veure allà va dissoldre els seus dubtes: el director financer (CFO) era a la pantalla, hi havia diversos col·legues familiars i a l'agenda hi havia una sol·licitud urgent de transferència bancària. Tot semblava normal. Tot sonava normal.

Res no era real.

Totes les persones d'aquella trucada eren deepfakes: el CFO, els col·legues, la reunió sencera. Tot era vídeo sintètic generat per IA i alimentat en temps real. L'atacant no havia esquivat cap control d'accés de la plataforma; l'empleat va unir-se a la trucada voluntàriament després que el portessin allà mitjançant enginyeria social. Quan es va descobrir el frau, ja s'havien transferit fora dels comptes de l'empresa 200 milions de HK$ (aproximadament 25 milions de US$). És el cas confirmat més gran de frau per deepfake en videotrucades contra un objectiu corporatiu.

El cas d'Arup no només va omplir titulars. Va canviar la manera com els professionals de seguretat pensen sobre la videoconferència. Si una persona experta en finances pot ser enganyada per autoritzar una transferència de 25 milions de dòlars a través d'una videotrucada sintètica, la pregunta ja no és si la teva organització pot ser víctima d'aquest tipus d'atac. La pregunta és si la teva plataforma de vídeo i els teus processos estan construïts per aturar-lo.

Aquest article desglossa com funcionen les amenaces deepfake en entorns de vídeo, per què les teves defenses actuals poden tenir un buit crític i com és una protecció genuïnament efectiva el 2025 i més enllà.

Continguts

  1. L'escala de l'amenaça deepfake
  2. Com els deepfakes amenacen específicament les videotrucades
  3. El buit d'autenticació: per què el xifratge per si sol no és suficient
  4. Enfocaments de defensa que realment funcionen
  5. Com Digital Samba protegeix l'autenticitat dels participants
  6. Construir una estratègia de defensa contra deepfakes
  7. FAQ

L'escala de l'amenaça deepfake

El cas d'Arup no va ser un incident aïllat. Va ser un avís previ.

El mercat de detecció de deepfakes ho explica en números. Valorat en 5.500 milions de US$, els analistes preveuen que arribarà als 15.700 milions de US$ el 2026, amb un creixement compost anual del 42 %, segons xifres que Deloitte va citar en una anàlisi del novembre de 2024. Aquest nivell d'inversió no es produeix llevat que l'amenaça sigui real i creixent.

El costat humà de l'equació és més alarmant. Una recerca de Keepnet va trobar que les persones identifiquen correctament els deepfakes només el 24,5 % de les vegades. És pitjor que llançar una moneda a l'aire, i vol dir que els teus empleats són l'última línia de defensa equivocada contra una videotrucada amb frau deepfake.

L'exposició empresarial s'ha accelerat de manera notable. Resemble AI va registrar 980 casos d'infiltració corporativa amb mitjans sintètics només durant el tercer trimestre de 2025, a partir d'un monitoratge global de mitjans en aquell període. No eren correus de phishing ni atacs de smishing; eren intents coordinats d'infiltrar empreses mitjançant persones generades per IA en videotrucades. Mentrestant, Gartner ha pronosticat que el 2027, el 50 % de les empreses estaran invertint en productes i estratègies de seguretat contra la desinformació, des de menys del 5 % d'ara fa pocs anys, en reconèixer que les defenses tradicionals no aguanten contra la IA generativa.

Si la teva organització fa videotrucades per a onboarding, aprovacions executives, autoritzacions financeres o sign-offs de compliment normatiu, aquesta amenaça t'afecta directament.

Com els deepfakes amenacen específicament les videotrucades

Es pot falsificar una videotrucada? La resposta incòmoda el 2026 és sí. Es pot fer de manera convincent, en temps real i a un cost relativament baix.

Hi ha tres vectors d'atac principals en un entorn de videotrucada amb deepfake:

  • Intercanvi de cara i feeds de vídeo sintètic. Un atacant captura vídeo del seu objectiu (de LinkedIn, entrevistes de YouTube, llocs web corporatius o enregistraments filtrats anteriors, per exemple) i fa servir un model generatiu per mapejar aquella cara sobre la seva pròpia en temps real. El resultat és un feed de vídeo en directe que mostra la cara de la víctima amb moviments de cap naturals, parpelleig i lip-sync realista. Les eines que abans només podien fer això en postproducció ara funcionen amb latència de menys d'un segon.
  • Clonació de veu. A banda del vídeo, la clonació de veu pot replicar els patrons de parla, l'accent i la cadència d'una persona a partir de només tres o cinc minuts d'àudio. Combinada amb l'intercanvi de cara, els atacants poden produir una persona sintètica completa, àudio i vídeo. Una videotrucada falsa d'un CFO clonat que dóna aprovació verbal per a una transferència bancària és, per a l'oïda i l'ull humans, indistingible de la real.
  • Streams de vídeo sintètic injectats. Els atacs més sofisticats esquiven la càmera per complet. En lloc de modificar un feed de webcam en directe, els atacants fan servir programari de càmera virtual per injectar un stream de vídeo pregenerat o sintetitzat per IA directament al client de videoconferència. La plataforma rep el que sembla un feed de càmera legítim, i no cal cap processament en temps real des del costat de l'atacant.

Aquestes capacitats alimenten diverses categories d'atac real:

  • Suplantació de CEO i frau financer: exactament el que va passar a Arup. Un atacant sintetitza un alt directiu i fa servir la persona per autoritzar transaccions o accessos.
  • Frau de contractació: candidats sintètics es presenten a entrevistes de feina, passen el filtre i aconsegueixen ocupació o accés a sistemes interns. L'FBI va emetre un avís sobre aquest patró exacte el 2022, i la freqüència ha crescut de manera significativa des d'aleshores.
  • Bypass de KYC: els atacants fan servir identitats sintètiques per superar les comprovacions d'identitat per vídeo Know Your Customer en institucions financeres.
  • Suplantació amb IA en videoconferències: membres del consell, inversors o reguladors sintètics que apareixen en trucades per manipular decisions o extreure informació sensible.

Les videotrucades són especialment vulnerables a tot això per una raó simple: hem estat ensinistrats a confiar en el que veiem i sentim en una videotrucada d'una manera que no faríem mai amb un correu electrònic. Un correu sospitós es revisa. Un "CFO" segur i visualment convincent a la pantalla és cregut, especialment quan la petició es presenta com a urgent i confidencial.

El buit d'autenticació: per què el xifratge per si sol no és suficient

Moltes organitzacions, després de llegir sobre aquestes amenaces, pensen immediatament en la seva posició de xifratge. Xifratge d'extrem a extrem, TLS en trànsit, AES-256 en repòs. Segur que això ja ho cobreix?

El xifratge protegeix el canal. No verifica qui hi ha a l'altre extrem.

Pensa-ho així: un sobre tancat garanteix que ningú no ha obert la carta en trànsit. Però no et diu res sobre si la persona que la va enviar és qui diu ser. En videoconferència, el xifratge evita que un tercer intercepti la teva trucada. No fa res per impedir que un atacant que ja ha sintetitzat la cara del CFO participi en aquella trucada com a participant autenticat.

Aquest és el buit d'autenticació, i és on la majoria de postures de seguretat empresarial en vídeo tenen un punt cec real.

Han emergit dos enfocaments per tancar-lo:

  • La detecció de deepfakes basada en IA intenta analitzar streams de vídeo en temps real i identificar artefactes de la síntesi com patrons de parpelleig poc naturals, anomalies a les vores de la cara, inconsistències en la il·luminació o irregularitats de microexpressió que els models generatius encara no aconsegueixen replicar perfectament. El problema és que els models de detecció sempre van per darrere dels models de generació. A mesura que la qualitat de la síntesi millora, la precisió de la detecció empitjora. És una cursa armamentista, i el costat de la detecció sempre va a remolc.
  • La verificació criptogràfica d'identitat aborda el problema de manera diferent. En lloc d'intentar detectar el fake un cop ja s'ha unit a la trucada, la verificació criptogràfica garanteix que només participants preverificats i autenticats es poden unir, d'entrada. La verificació d'identitat passa abans de la sessió, no durant. Això no és un problema d'IA per resoldre, sinó un problema de control d'accés que cal dissenyar correctament des del principi.

Les postures de seguretat més fortes combinen totes dues. Però si estàs triant on invertir primer, la capa criptogràfica és la base més fiable.

Enfocaments de defensa que realment funcionen

Eines de detecció de deepfakes basades en IA

Ha sorgit una categoria d'eines dedicades a la detecció de deepfakes per abordar el problema d'identificació en temps real. Inclouen plataformes com:

  • Facia, que ofereix detecció de presència real i anàlisi biomètrica;
  • Reality Defender, que executa detecció probabilística entre múltiples modalitats;
  • Pindrop, que se centra en la identificació de deepfakes basats en veu;
  • UncovAI, que analitza els artefactes de vídeo a nivell de fotograma.

Zoom també ha estat desplegant detecció de deepfakes integrada com a part de la seva plataforma Workplace, incloent una integració amb Pindrop per a casos d'ús de contact center anunciada a principis de 2026.

Aquestes eines milloren ràpidament, però arrosseguen limitacions inherents. La precisió de la detecció es degrada a mesura que la qualitat de generació millora. Solen requerir integració addicional als fluxos de treball de videoconferència existents, i generen falsos positius que creen fricció per a participants legítims, una preocupació real en entorns regulats on les trucades executives no poden permetre's interrupcions.

Com una capa dins una pila de defensa, aporten valor real. Com a control principal, no són suficients.

Verificació criptogràfica d'identitat

Les solucions construïdes al voltant de la verificació criptogràfica d'identitat aborden una part diferent del problema. En lloc d'analitzar com es veu algú durant una trucada, la verificació criptogràfica confirma que la persona que s'uneix ja ha passat una verificació d'identitat i té una credencial de sessió vàlida i no falsificable.

Això s'implementa mitjançant sistemes d'autenticació basats en tokens on la identitat s'afirma abans que comenci la trucada. Un participant no es pot unir a una sessió sense un token signat criptogràficament emès a una identitat verificada. Si algú intenta suplantar un company fent servir una cara sintètica, no tindrà aquell token, i no podrà entrar.

L'autenticació per token té un límit clar, però. Verifica la credencial a l'entrada, no la cara a la pantalla durant la trucada. Un cop un participant amb credencial legítima s'ha unit, la capa de token no pot detectar un face-swap que s'estigui executant al seu dispositiu. Un insider amb un token vàlid, o un atacant que n'hagi obtingut un per enginyeria social, encara podria fer una suplantació durant la sessió. L'autenticació per token és un primer control fort; no és la resposta completa per si sola.

C2PA i estàndards de procedència del contingut

L'estàndard de la Coalition for Content Provenance and Authenticity (C2PA) està impulsat per membres fundadors com Adobe, Arm, BBC, Intel, Microsoft i Truepic. Proporciona un marc per signar criptogràficament mitjans en el moment de la captura, creant una cadena verificable de procedència que enllaça un stream de vídeo amb un dispositiu específic i autenticat. Aplicat a la videoconferència, això permetria a les plataformes certificar que un stream s'origina en un dispositiu genuí en lloc d'un generador sintètic.

L'adopció de C2PA en videoconferència en directe encara està en fase primerenca. C2PA 2.3, alliberada el desembre de 2025, va estendre l'estàndard al streaming en directe, però la implementació en clients de conferència segueix sent experimental. També hi ha una limitació coneguda: moltes plataformes esborren les metadades incrustades durant el transcoding, fet que pot trencar la cadena de procedència. Aquests són problemes resolubles, i C2PA representa la direcció arquitectònica a llarg termini més prometedora per a la detecció de deepfakes en videotrucades a gran escala.

Detecció de presència real i reptes conductuals

Els sistemes de detecció de presència real (liveness detection) requereixen que els participants facin accions físiques aleatòries (seguir un objecte en moviment, girar el cap a un angle específic, parpellejar a senyal) que els models generatius no poden anticipar i sintetitzar en temps real. Combinada amb protocols de repte-resposta, la detecció de presència real eleva el cost dels atacs de suplantació de videotrucades amb IA.

Dit això, la detecció de presència real és més efectiva contra atacs de presentació, on algú aguanta una foto o reprodueix un vídeo davant la càmera. És més feble contra els atacs d'stream injectat descrits abans, on un feed sintètic s'insereix directament al pipeline de vídeo i pot ser dissenyat per respondre als reptes. Tracta-la com una capa útil, no com una defensa autònoma.

Zero trust per a la identitat en vídeo

El principi Zero Trust, "no confiïs mai, verifica sempre", es trasllada directament a la seguretat de la videoconferència. Un marc de Zero Trust per a la identitat en vídeo significa:

  • Cada participant és autenticat abans d'unir-se, no se'l dóna per legítim només perquè té l'enllaç
  • Les credencials de sessió tenen un abast limitat, vida curta i estan signades criptogràficament
  • Els permisos de rol s'apliquen al servidor i no es poden escalar des del client
  • Cada esdeveniment d'autenticació es registra per a auditoria

Com Digital Samba protegeix l'autenticitat dels participants

La verificació d'identitat en videotrucades a Digital Samba està construïda sobre un model fonamentalment diferent del de la detecció basada en IA. L'enfocament és arquitectònic: evitar que els participants no verificats s'uneixin d'entrada, en lloc d'intentar identificar mitjans sintètics després que hagin aparegut a la pantalla.

E2EE amb codis de verificació de seguretat

La implementació de xifratge d'extrem a extrem de Digital Samba inclou codis de verificació de seguretat, que són empremtes criptogràfiques curtes derivades de les claus de xifratge de la sessió. Quan dos participants comparen els seus codis de verificació fora de banda (per veu, per missatge o visualment), poden confirmar criptogràficament que no hi ha cap atac de l'home al mig (MITM) i que totes dues parts estan realment connectades a la mateixa sessió xifrada.

Això no és anàlisi de videotrucada amb IA. És una prova matemàtica. Si els codis coincideixen, la sessió és autèntica. La comprovació no es pot falsejar amb un feed de vídeo sintètic, perquè l'atacant hauria de comprometre les claus criptogràfiques per generar un codi coincident, no només replicar la cara d'algú.

Autenticació per token: verificat abans d'unir-se

Cada sessió de Digital Samba es pot configurar perquè requereixi un token d'autenticació signat per entrar-hi. Aquests tokens els emet la plataforma a participants que ja han estat verificats per l'aplicació host. Un participant sense un token vàlid i no caducat simplement no pot unir-se.

A la pràctica, la defensa contra deepfakes comença a la teva capa de gestió d'usuaris. Qui emet el token controla qui entra. Si els teus sistemes d'onboarding, RH o financers emeten tokens només a identitats verificades, els participants sintètics no poden obtenir les credencials necessàries per unir-se a les teves trucades. Això assumeix que la teva capa de gestió d'identitat és segura aigües amunt; l'autenticació per token és tan forta com el procés d'emissió que hi ha al darrere.

Control d'accés basat en rols: sense escalada de privilegis

El sistema RBAC de Digital Samba s'aplica al servidor. Els participants s'uneixen amb un rol específic (host, moderador o participant) i no poden escalar els seus permisos mitjançant manipulació al client. Això importa en escenaris de suplantació amb IA on un atacant podria intentar guanyar privilegis de host o moderador per manipular el contingut de la reunió, eliminar participants legítims o accedir a recursos compartits sensibles.

Processament d'IA en infraestructura autoallotjada

Digital Samba executa totes les funcions impulsades per IA (transcripció, subtítols en directe, resums de reunions) només en models autoallotjats. No s'envia àudio, vídeo ni contingut de reunions a proveïdors d'IA tercers per al processament.

Per a organitzacions conscients de la seguretat, això importa per a la contenció de dades: les plataformes que enruten contingut de reunions a través de serveis d'IA externs creen exposició a infraestructura que no controles ni audites. L'enfocament de Digital Samba manté les dades de reunions dins la pròpia infraestructura de la plataforma, i el mateix principi s'aplicarà a qualsevol futura funció de verificació d'identitat basada en IA a mesura que la capacitat maduri.

Construir una estratègia de defensa contra deepfakes

És poc probable que un frau per deepfake en videotrucada contra la teva organització s'aturi amb un sol control. L'enfocament més resilient és per capes:

  1. Capa 1: Prevenció mitjançant control d'accés. L'autenticació per token i el RBAC eviten que els participants no verificats s'uneixin d'entrada. Aquest és el teu control de més valor. Un atacant que no pot entrar a la trucada no pot executar l'atac.
  2. Capa 2: Verificació criptogràfica de la sessió. E2EE amb codis de verificació de seguretat proporciona confirmació matemàtica que les sessions són autèntiques i no compromeses. És la teva capa d'assegurament per a trucades d'alta exigència.
  3. Capa 3: Detecció en temps real. Desplega eines dedicades de detecció de deepfakes en videotrucades com un senyal addicional, no com a control principal. Fes-les servir per marcar anomalies per a revisió humana en lloc de com una porta automàtica que generarà taxes inacceptables de falsos positius.
  4. Capa 4: Protocols humans. Estableix procediments de verificació fora de banda per a peticions d'alt risc. Qualsevol autorització financera, accés a dades sensibles o decisió estratègica presa en una videotrucada s'hauria de confirmar per un canal separat abans de passar a l'acció. Forma els empleats per reconèixer les condicions que fan possible el frau per deepfake: urgència artificial, instruccions per saltar els passos normals d'aprovació i peticions per mantenir la interacció confidencial. En el cas d'Arup, una sola trucada al CFO real a través d'un número conegut hauria deixat al descobert el frau immediatament. La capa 4 sola hauria aturat el frau.
  5. Capa 5: Auditoria i resposta. Registra tots els esdeveniments d'autenticació, participants de sessió i decisions de control d'accés. Quan es produeix un incident, necessites un registre forense complet de qui es va unir, quan i amb quina credencial.

L'amenaça del frau per deepfake en videotrucades no minvarà. La tecnologia de generació es torna més ràpida, més barata i més accessible cada mes. Les organitzacions que seran resilients són les que tractin la identitat en videotrucades com un domini de seguretat, no només com una comoditat tècnica.

FAQ

Què va ser el frau de videotrucada amb deepfake de 25 milions de dòlars?

El gener de 2024, un empleat d'Arup, una empresa global d'enginyeria, va ser enganyat per transferir 200 milions de HK$ (aproximadament 25 milions de US$) després d'assistir a una videotrucada on tots els altres participants, inclòs el CFO, eren deepfakes generats per IA. L'atac va començar amb un correu de phishing; l'empleat va ser portat a la trucada per enginyeria social i s'hi va unir voluntàriament. Continua sent un dels casos confirmats més grans de frau per deepfake en videotrucades contra un objectiu corporatiu. La lliçó real és que els controls tècnics s'han d'aparellar amb controls de procés, concretament la pràctica de verificar les peticions d'alta exigència per un canal separat abans d'actuar.

Es poden detectar els deepfakes en temps real durant una videotrucada?

Sí, amb matisos. Les eines dedicades de detecció de deepfakes en videotrucades de proveïdors com Reality Defender i Facia poden analitzar streams de vídeo en temps real cercant artefactes de síntesi. Zoom també ha estat desplegant funcions natives de detecció. Tanmateix, la precisió de detecció és un repte permanent perquè tendeix a degradar-se a mesura que la tecnologia de generació millora, i els sistemes actuals no són prou fiables per servir com a control únic. L'enfocament més fort és evitar que els participants no verificats s'uneixin d'entrada, mitjançant autenticació per token i verificació criptogràfica de sessió, i tractar la detecció en temps real com un senyal addicional.

Com eviten la suplantació els codis de verificació de seguretat E2EE?

Quan una sessió de Digital Samba fa servir xifratge d'extrem a extrem, cada sessió genera una empremta criptogràfica derivada de les claus de xifratge compartides. Els participants poden comparar aquests codis de verificació fora de banda per confirmar que realment estan connectats a la mateixa sessió xifrada. Un participant amb vídeo sintètic no pot generar un codi coincident sense accés a les claus criptogràfiques reals, així que si els codis coincideixen, la sessió queda verificada matemàticament com a autèntica.

Hi ha eines gratuïtes per detectar deepfakes durant videotrucades?

Existeixen diverses eines gratuïtes o freemium per a l'anàlisi post-hoc de deepfakes, on puges un vídeo després del fet. La detecció real en temps real durant una trucada en directe està disponible predominantment a través de productes comercials d'empresa. Microsoft ha integrat alguns senyals de detecció a Teams, i Zoom ha estat desplegant funcions de detecció integrades. Models de codi obert com FaceForensics++ es poden autoallotjar per a fluxos d'anàlisi, encara que integrar-los a la videoconferència en directe requereix una inversió d'enginyeria considerable. Per a la majoria d'empreses, la inversió més rendible és en control d'accés per evitar que els participants sintètics s'uneixin d'entrada.

Quins sectors són els més atacats per deepfakes en videotrucades?

Els serveis financers lideren amb un marge significatiu. La combinació de grans valors de transacció i l'autoritat de les aprovacions per vídeo en fa l'objectiu principal. Els bufets legals i serveis professionals són atacats per a l'extracció d'informació, amb clients o contraparts sintètics que busquen obtenir informació sensible durant trucades. Les funcions de contractació i RH són atacades per a la infiltració, amb candidats sintètics que passen entrevistes per aconseguir accés laboral. Les infraestructures crítiques, la sanitat i les organitzacions governamentals són cada cop més atacades per actors propers a estats que fan servir tècniques de suplantació amb IA en videoconferències.

Per a les organitzacions que operen sota la llei de la UE, també hi ha una dimensió normativa. L'Article 50 de la Llei d'IA de la UE, que va entrar en vigor l'agost de 2024 i les obligacions de transparència del qual s'apliquen des de l'agost de 2026, requereix que les organitzacions que despleguen sistemes d'IA que generen vídeo o àudio sintètic de persones reals ho divulguin als destinataris. Per a empreses de serveis financers, legals i de compliment normatiu, això crea exposició legal més enllà de la simple pèrdua per frau.

Protegir les videotrucades del frau per deepfake

El cas d'Arup ha establert una prova de concepte que la comunitat de seguretat no pot ignorar: una videotrucada amb deepfake prou convincent pot enganyar fins i tot professionals formats perquè autoritzin decisions financeres catastròfiques. La tecnologia que ho ha fet possible només s'ha tornat més accessible i més convincent des de llavors.

La resposta no és desconfiar de les videotrucades, perquè són massa valuoses per abandonar-les. La resposta és protegir-les de la mateixa manera que protegeixes qualsevol altre canal de comunicació d'alta exigència: amb identitat verificada al punt d'accés, integritat criptogràfica de la sessió i controls per capes que no depenguin només de la percepció visual humana.

L'enfocament de Digital Samba es basa en autenticació per token abans d'unir-se, E2EE amb codis criptogràfics de verificació, RBAC al servidor i processament d'IA autoallotjat. Junts, aborden la capa de plataforma. Aparellats amb protocols humans clars de verificació fora de banda, cobreixen tant els errors tècnics com els de procés que el cas d'Arup va deixar al descobert.

Descarrega el nostre Security Whitepaper per als detalls tècnics complets d'arquitectura, incloent especificacions de xifratge, implementació de control d'accés i registre per auditoria.

Parla amb el nostre equip per discutir els requisits de seguretat de videoconferència de la teva organització i veure aquestes funcions en acció.