El gener de 2024, una persona del departament de finances d'Arup, l'empresa multinacional d'enginyeria, va rebre el que semblava una invitació rutinària a una videotrucada. La invitació venia després d'un correu de phishing sobre una transacció confidencial que la persona havia trobat sospitós. En lloc d'alertar el seu equip, va unir-se a la videotrucada, i el que va veure allà va dissoldre els seus dubtes: el director financer (CFO) era a la pantalla, hi havia diversos col·legues familiars i a l'agenda hi havia una sol·licitud urgent de transferència bancària. Tot semblava normal. Tot sonava normal.
Res no era real.
Totes les persones d'aquella trucada eren deepfakes: el CFO, els col·legues, la reunió sencera. Tot era vídeo sintètic generat per IA i alimentat en temps real. L'atacant no havia esquivat cap control d'accés de la plataforma; l'empleat va unir-se a la trucada voluntàriament després que el portessin allà mitjançant enginyeria social. Quan es va descobrir el frau, ja s'havien transferit fora dels comptes de l'empresa 200 milions de HK$ (aproximadament 25 milions de US$). És el cas confirmat més gran de frau per deepfake en videotrucades contra un objectiu corporatiu.
El cas d'Arup no només va omplir titulars. Va canviar la manera com els professionals de seguretat pensen sobre la videoconferència. Si una persona experta en finances pot ser enganyada per autoritzar una transferència de 25 milions de dòlars a través d'una videotrucada sintètica, la pregunta ja no és si la teva organització pot ser víctima d'aquest tipus d'atac. La pregunta és si la teva plataforma de vídeo i els teus processos estan construïts per aturar-lo.
Aquest article desglossa com funcionen les amenaces deepfake en entorns de vídeo, per què les teves defenses actuals poden tenir un buit crític i com és una protecció genuïnament efectiva el 2025 i més enllà.
Continguts
El cas d'Arup no va ser un incident aïllat. Va ser un avís previ.
El mercat de detecció de deepfakes ho explica en números. Valorat en 5.500 milions de US$, els analistes preveuen que arribarà als 15.700 milions de US$ el 2026, amb un creixement compost anual del 42 %, segons xifres que Deloitte va citar en una anàlisi del novembre de 2024. Aquest nivell d'inversió no es produeix llevat que l'amenaça sigui real i creixent.
El costat humà de l'equació és més alarmant. Una recerca de Keepnet va trobar que les persones identifiquen correctament els deepfakes només el 24,5 % de les vegades. És pitjor que llançar una moneda a l'aire, i vol dir que els teus empleats són l'última línia de defensa equivocada contra una videotrucada amb frau deepfake.
L'exposició empresarial s'ha accelerat de manera notable. Resemble AI va registrar 980 casos d'infiltració corporativa amb mitjans sintètics només durant el tercer trimestre de 2025, a partir d'un monitoratge global de mitjans en aquell període. No eren correus de phishing ni atacs de smishing; eren intents coordinats d'infiltrar empreses mitjançant persones generades per IA en videotrucades. Mentrestant, Gartner ha pronosticat que el 2027, el 50 % de les empreses estaran invertint en productes i estratègies de seguretat contra la desinformació, des de menys del 5 % d'ara fa pocs anys, en reconèixer que les defenses tradicionals no aguanten contra la IA generativa.
Si la teva organització fa videotrucades per a onboarding, aprovacions executives, autoritzacions financeres o sign-offs de compliment normatiu, aquesta amenaça t'afecta directament.
Es pot falsificar una videotrucada? La resposta incòmoda el 2026 és sí. Es pot fer de manera convincent, en temps real i a un cost relativament baix.
Hi ha tres vectors d'atac principals en un entorn de videotrucada amb deepfake:
Aquestes capacitats alimenten diverses categories d'atac real:
Les videotrucades són especialment vulnerables a tot això per una raó simple: hem estat ensinistrats a confiar en el que veiem i sentim en una videotrucada d'una manera que no faríem mai amb un correu electrònic. Un correu sospitós es revisa. Un "CFO" segur i visualment convincent a la pantalla és cregut, especialment quan la petició es presenta com a urgent i confidencial.
Moltes organitzacions, després de llegir sobre aquestes amenaces, pensen immediatament en la seva posició de xifratge. Xifratge d'extrem a extrem, TLS en trànsit, AES-256 en repòs. Segur que això ja ho cobreix?
El xifratge protegeix el canal. No verifica qui hi ha a l'altre extrem.
Pensa-ho així: un sobre tancat garanteix que ningú no ha obert la carta en trànsit. Però no et diu res sobre si la persona que la va enviar és qui diu ser. En videoconferència, el xifratge evita que un tercer intercepti la teva trucada. No fa res per impedir que un atacant que ja ha sintetitzat la cara del CFO participi en aquella trucada com a participant autenticat.
Aquest és el buit d'autenticació, i és on la majoria de postures de seguretat empresarial en vídeo tenen un punt cec real.
Han emergit dos enfocaments per tancar-lo:
Les postures de seguretat més fortes combinen totes dues. Però si estàs triant on invertir primer, la capa criptogràfica és la base més fiable.
Ha sorgit una categoria d'eines dedicades a la detecció de deepfakes per abordar el problema d'identificació en temps real. Inclouen plataformes com:
Zoom també ha estat desplegant detecció de deepfakes integrada com a part de la seva plataforma Workplace, incloent una integració amb Pindrop per a casos d'ús de contact center anunciada a principis de 2026.
Aquestes eines milloren ràpidament, però arrosseguen limitacions inherents. La precisió de la detecció es degrada a mesura que la qualitat de generació millora. Solen requerir integració addicional als fluxos de treball de videoconferència existents, i generen falsos positius que creen fricció per a participants legítims, una preocupació real en entorns regulats on les trucades executives no poden permetre's interrupcions.
Com una capa dins una pila de defensa, aporten valor real. Com a control principal, no són suficients.
Les solucions construïdes al voltant de la verificació criptogràfica d'identitat aborden una part diferent del problema. En lloc d'analitzar com es veu algú durant una trucada, la verificació criptogràfica confirma que la persona que s'uneix ja ha passat una verificació d'identitat i té una credencial de sessió vàlida i no falsificable.
Això s'implementa mitjançant sistemes d'autenticació basats en tokens on la identitat s'afirma abans que comenci la trucada. Un participant no es pot unir a una sessió sense un token signat criptogràficament emès a una identitat verificada. Si algú intenta suplantar un company fent servir una cara sintètica, no tindrà aquell token, i no podrà entrar.
L'autenticació per token té un límit clar, però. Verifica la credencial a l'entrada, no la cara a la pantalla durant la trucada. Un cop un participant amb credencial legítima s'ha unit, la capa de token no pot detectar un face-swap que s'estigui executant al seu dispositiu. Un insider amb un token vàlid, o un atacant que n'hagi obtingut un per enginyeria social, encara podria fer una suplantació durant la sessió. L'autenticació per token és un primer control fort; no és la resposta completa per si sola.
L'estàndard de la Coalition for Content Provenance and Authenticity (C2PA) està impulsat per membres fundadors com Adobe, Arm, BBC, Intel, Microsoft i Truepic. Proporciona un marc per signar criptogràficament mitjans en el moment de la captura, creant una cadena verificable de procedència que enllaça un stream de vídeo amb un dispositiu específic i autenticat. Aplicat a la videoconferència, això permetria a les plataformes certificar que un stream s'origina en un dispositiu genuí en lloc d'un generador sintètic.
L'adopció de C2PA en videoconferència en directe encara està en fase primerenca. C2PA 2.3, alliberada el desembre de 2025, va estendre l'estàndard al streaming en directe, però la implementació en clients de conferència segueix sent experimental. També hi ha una limitació coneguda: moltes plataformes esborren les metadades incrustades durant el transcoding, fet que pot trencar la cadena de procedència. Aquests són problemes resolubles, i C2PA representa la direcció arquitectònica a llarg termini més prometedora per a la detecció de deepfakes en videotrucades a gran escala.
Els sistemes de detecció de presència real (liveness detection) requereixen que els participants facin accions físiques aleatòries (seguir un objecte en moviment, girar el cap a un angle específic, parpellejar a senyal) que els models generatius no poden anticipar i sintetitzar en temps real. Combinada amb protocols de repte-resposta, la detecció de presència real eleva el cost dels atacs de suplantació de videotrucades amb IA.
Dit això, la detecció de presència real és més efectiva contra atacs de presentació, on algú aguanta una foto o reprodueix un vídeo davant la càmera. És més feble contra els atacs d'stream injectat descrits abans, on un feed sintètic s'insereix directament al pipeline de vídeo i pot ser dissenyat per respondre als reptes. Tracta-la com una capa útil, no com una defensa autònoma.
El principi Zero Trust, "no confiïs mai, verifica sempre", es trasllada directament a la seguretat de la videoconferència. Un marc de Zero Trust per a la identitat en vídeo significa:
La verificació d'identitat en videotrucades a Digital Samba està construïda sobre un model fonamentalment diferent del de la detecció basada en IA. L'enfocament és arquitectònic: evitar que els participants no verificats s'uneixin d'entrada, en lloc d'intentar identificar mitjans sintètics després que hagin aparegut a la pantalla.
La implementació de xifratge d'extrem a extrem de Digital Samba inclou codis de verificació de seguretat, que són empremtes criptogràfiques curtes derivades de les claus de xifratge de la sessió. Quan dos participants comparen els seus codis de verificació fora de banda (per veu, per missatge o visualment), poden confirmar criptogràficament que no hi ha cap atac de l'home al mig (MITM) i que totes dues parts estan realment connectades a la mateixa sessió xifrada.
Això no és anàlisi de videotrucada amb IA. És una prova matemàtica. Si els codis coincideixen, la sessió és autèntica. La comprovació no es pot falsejar amb un feed de vídeo sintètic, perquè l'atacant hauria de comprometre les claus criptogràfiques per generar un codi coincident, no només replicar la cara d'algú.
Cada sessió de Digital Samba es pot configurar perquè requereixi un token d'autenticació signat per entrar-hi. Aquests tokens els emet la plataforma a participants que ja han estat verificats per l'aplicació host. Un participant sense un token vàlid i no caducat simplement no pot unir-se.
A la pràctica, la defensa contra deepfakes comença a la teva capa de gestió d'usuaris. Qui emet el token controla qui entra. Si els teus sistemes d'onboarding, RH o financers emeten tokens només a identitats verificades, els participants sintètics no poden obtenir les credencials necessàries per unir-se a les teves trucades. Això assumeix que la teva capa de gestió d'identitat és segura aigües amunt; l'autenticació per token és tan forta com el procés d'emissió que hi ha al darrere.
El sistema RBAC de Digital Samba s'aplica al servidor. Els participants s'uneixen amb un rol específic (host, moderador o participant) i no poden escalar els seus permisos mitjançant manipulació al client. Això importa en escenaris de suplantació amb IA on un atacant podria intentar guanyar privilegis de host o moderador per manipular el contingut de la reunió, eliminar participants legítims o accedir a recursos compartits sensibles.
Digital Samba executa totes les funcions impulsades per IA (transcripció, subtítols en directe, resums de reunions) només en models autoallotjats. No s'envia àudio, vídeo ni contingut de reunions a proveïdors d'IA tercers per al processament.
Per a organitzacions conscients de la seguretat, això importa per a la contenció de dades: les plataformes que enruten contingut de reunions a través de serveis d'IA externs creen exposició a infraestructura que no controles ni audites. L'enfocament de Digital Samba manté les dades de reunions dins la pròpia infraestructura de la plataforma, i el mateix principi s'aplicarà a qualsevol futura funció de verificació d'identitat basada en IA a mesura que la capacitat maduri.
És poc probable que un frau per deepfake en videotrucada contra la teva organització s'aturi amb un sol control. L'enfocament més resilient és per capes:
L'amenaça del frau per deepfake en videotrucades no minvarà. La tecnologia de generació es torna més ràpida, més barata i més accessible cada mes. Les organitzacions que seran resilients són les que tractin la identitat en videotrucades com un domini de seguretat, no només com una comoditat tècnica.
El gener de 2024, un empleat d'Arup, una empresa global d'enginyeria, va ser enganyat per transferir 200 milions de HK$ (aproximadament 25 milions de US$) després d'assistir a una videotrucada on tots els altres participants, inclòs el CFO, eren deepfakes generats per IA. L'atac va començar amb un correu de phishing; l'empleat va ser portat a la trucada per enginyeria social i s'hi va unir voluntàriament. Continua sent un dels casos confirmats més grans de frau per deepfake en videotrucades contra un objectiu corporatiu. La lliçó real és que els controls tècnics s'han d'aparellar amb controls de procés, concretament la pràctica de verificar les peticions d'alta exigència per un canal separat abans d'actuar.
Sí, amb matisos. Les eines dedicades de detecció de deepfakes en videotrucades de proveïdors com Reality Defender i Facia poden analitzar streams de vídeo en temps real cercant artefactes de síntesi. Zoom també ha estat desplegant funcions natives de detecció. Tanmateix, la precisió de detecció és un repte permanent perquè tendeix a degradar-se a mesura que la tecnologia de generació millora, i els sistemes actuals no són prou fiables per servir com a control únic. L'enfocament més fort és evitar que els participants no verificats s'uneixin d'entrada, mitjançant autenticació per token i verificació criptogràfica de sessió, i tractar la detecció en temps real com un senyal addicional.
Quan una sessió de Digital Samba fa servir xifratge d'extrem a extrem, cada sessió genera una empremta criptogràfica derivada de les claus de xifratge compartides. Els participants poden comparar aquests codis de verificació fora de banda per confirmar que realment estan connectats a la mateixa sessió xifrada. Un participant amb vídeo sintètic no pot generar un codi coincident sense accés a les claus criptogràfiques reals, així que si els codis coincideixen, la sessió queda verificada matemàticament com a autèntica.
Existeixen diverses eines gratuïtes o freemium per a l'anàlisi post-hoc de deepfakes, on puges un vídeo després del fet. La detecció real en temps real durant una trucada en directe està disponible predominantment a través de productes comercials d'empresa. Microsoft ha integrat alguns senyals de detecció a Teams, i Zoom ha estat desplegant funcions de detecció integrades. Models de codi obert com FaceForensics++ es poden autoallotjar per a fluxos d'anàlisi, encara que integrar-los a la videoconferència en directe requereix una inversió d'enginyeria considerable. Per a la majoria d'empreses, la inversió més rendible és en control d'accés per evitar que els participants sintètics s'uneixin d'entrada.
Els serveis financers lideren amb un marge significatiu. La combinació de grans valors de transacció i l'autoritat de les aprovacions per vídeo en fa l'objectiu principal. Els bufets legals i serveis professionals són atacats per a l'extracció d'informació, amb clients o contraparts sintètics que busquen obtenir informació sensible durant trucades. Les funcions de contractació i RH són atacades per a la infiltració, amb candidats sintètics que passen entrevistes per aconseguir accés laboral. Les infraestructures crítiques, la sanitat i les organitzacions governamentals són cada cop més atacades per actors propers a estats que fan servir tècniques de suplantació amb IA en videoconferències.
Per a les organitzacions que operen sota la llei de la UE, també hi ha una dimensió normativa. L'Article 50 de la Llei d'IA de la UE, que va entrar en vigor l'agost de 2024 i les obligacions de transparència del qual s'apliquen des de l'agost de 2026, requereix que les organitzacions que despleguen sistemes d'IA que generen vídeo o àudio sintètic de persones reals ho divulguin als destinataris. Per a empreses de serveis financers, legals i de compliment normatiu, això crea exposició legal més enllà de la simple pèrdua per frau.
El cas d'Arup ha establert una prova de concepte que la comunitat de seguretat no pot ignorar: una videotrucada amb deepfake prou convincent pot enganyar fins i tot professionals formats perquè autoritzin decisions financeres catastròfiques. La tecnologia que ho ha fet possible només s'ha tornat més accessible i més convincent des de llavors.
La resposta no és desconfiar de les videotrucades, perquè són massa valuoses per abandonar-les. La resposta és protegir-les de la mateixa manera que protegeixes qualsevol altre canal de comunicació d'alta exigència: amb identitat verificada al punt d'accés, integritat criptogràfica de la sessió i controls per capes que no depenguin només de la percepció visual humana.
L'enfocament de Digital Samba es basa en autenticació per token abans d'unir-se, E2EE amb codis criptogràfics de verificació, RBAC al servidor i processament d'IA autoallotjat. Junts, aborden la capa de plataforma. Aparellats amb protocols humans clars de verificació fora de banda, cobreixen tant els errors tècnics com els de procés que el cas d'Arup va deixar al descobert.
Descarrega el nostre Security Whitepaper per als detalls tècnics complets d'arquitectura, incloent especificacions de xifratge, implementació de control d'accés i registre per auditoria.
Parla amb el nostre equip per discutir els requisits de seguretat de videoconferència de la teva organització i veure aquestes funcions en acció.