Rozpoznat na internetu podvrh je už téměř nemožné. Deepfake je hrozbou současnosti
S pokrokem v kvalitě modelů umělé inteligence (AI) a jejich rozšířením mezi širokou veřejnost jde ruku v ruce i rostoucí riziko jejich zneužití. Velkým problémem současného online světa se tak stávají různé kybernetické podvody a manipulace veřejným míněním za použití deepfake, tedy AI podvrhů. A ještě větším problémem je, že je již téměř nemožné je rozeznat od reality.
redaktorka
Pojem deepfake vznikl složeninou dvou anglických slov; „deep learning“, což je hluboké učení za pomoci neuronových sítí, a „fake“, které znamená jednoduše padělek či podvrh. Deepfaky jsou tedy syntetická multimédia, která zobrazují události, jež se nestaly. A pokud se staly, tak jejich průběh nějakým způsobem upravují. Na rozdíl od klasických fotomontáží, případně prvních, ještě ne tak propracovaných, pokusů s algoritmy AI, jsou dnes deepfaky kvalitativně na daleko vyšší úrovni a s využitím opensource technologií nebo as a service softwaru, tedy cloudových nástrojů za předplatné, je zvládne vyrobit skutečně prakticky kdokoliv.
„Za každým modelem, který dokáže dle zadání generovat fotografie, zvuk včetně lidského hlasu či celá videa, se skrývají určitým způsobem konfigurované a naučené neuronové sítě, avšak to běžný uživatel vůbec nepotřebuje vědět. Jemu mnohdy stačí kliknout na jedno tlačítko a během několika málo minut má k dispozici výsledek, s nímž může jakkoliv nakládat. I proto je nyní tak jednoduché umělou inteligenci zneužívat k nekalým účelům. A proto samozřejmě počty útoků na firmy i jednotlivce rostou,“ říká Kamil Malinka, vedoucí výzkumné skupiny bezpečnosti informačních technologií na FIT VUT v Brně.
Veřejnost se podle něj v takových případech mohla setkat například s investičními podvody, které mají získat důvěryhodnost díky zneužitím tváře nějaké známé celebrity, která je zdánlivě propaguje. Nebo si pod deepfaky představí ovlivňování veřejného mínění na sociálních sítích, například volební kampaně na Slovensku. Možností, jak umělou inteligenci zneužít a páchat s ní trestnou činnost, je ale bohužel daleko více. V bankovním sektoru lze zaměřit deepfake útoky na některé biometrické systémy, například na rozpoznávání obličeje či hlasu v rámci autentizace přístupu do internetového bankovnictví. Sofistikovanější je nyní díky umělé inteligenci i takzvaný vishing, tedy podvodné telefonáty, kdy se podvodníci svou oběť snaží zmást podvrženým hlasem či přímo videem. Takové útoky často míří na management ve firmách, který má přístup k financím a strategickým informacím. Deepfaky se také mohou využívat k manipulaci s důkazy v soudních řízeních, k vytváření kompromitujících informací a podobně.
Z oblasti vishingu je mediálně známý příběh z Hongkongu, kdy podvodníci za pomoci AI zmanipulovaného videohovoru přesvědčili na dálku skutečného zaměstnance firmy, aby na ně převedl 25 milionů dolarů. Nejvyšší částka, která zatím za pomoci deepfake videa z nějaké společnosti unikla, byla zhruba 350 milionů liber, přičemž technika podvodu byla prakticky totožná s tím, co zažil muž v Číně. „Útočníci si detailně nastudovali, jak fungují interní procesy firmy, a pak zavolali konkrétnímu člověku. S obětí spustili živou komunikaci, při níž se díky upravenému hlasu jeden z nich vydával za ředitele firmy a rovnou zadával příkazy, kam se mají peníze posílat. Následně pak ještě přišel email s dalšími informacemi,“ popisuje Kamil Malinka postup podvodníků a dodává, že v řadě velkých firem při finančních transakcích top management skutečně volá hlasově či videem svým podřízeným a dává jim instrukce. I proto je mnohdy těžké takový podvod odhalit.
Malinka přidává i případ z Česka, kdy firma s potavinovými dpoplňky Gym Beam čelila útoku, při němž mělo dojít k vyzrazení citlivých a pro firmu klíčových informací. V tomto případě zaměstnanec útok odhalil, ale ne proto, že by dokázal rozpoznat deepfake. Firmu zachránila spíše pozornost daného člověka, protože dobře vnímal kontext. „Od nadřízeného mu přišla zpráva přes aplikaci WhatsApp s linkem na Teams hovor. Na online schůzce mu pak domnělý nadřízený tvrdil, že je na dovolené a představil mu kolegu z právního oddělení, jemuž je třeba předat určité (citlivé) informace a odpojil se. V ten moment měla začít konverzace mezi zaměstnancem a oním kolegou, ale zaměstnanec si uvědomil, že nadřízeného ráno potkal u kávy. Proto mu ihned jiným kanálem psal a ověřil si tak, že jde skutečně o podvod.“
A do třetice ještě jiný příklad. Ve východní Evropě nedávno došlo k odhalení pašování lidí do Kanady, kdy na pas s jednou konkrétní fotografií obličeje mohli přes letištní automatizovanou pasovou kontrolu projít dva různí lidé. Podvod v tomto případě spočíval v takzvaném fúzování fotografií a použít ho bylo možné proto, že v dané zemi si při výrobě pasu mohli občané přinést vlastní fotografii. Ze snímků tváří dvou lidí se tedy za pomoci AI vytvořila jedna, která byla jejich mixem a použila se při výrobě pasů. Tento jeden syntetizovaný obličej byl v obou pasech velmi podobný oběma lidem, proto šlo při prokazování totožnosti na letišti skenery oklamat.
Velkou kapitolou jsou pak sociální sítě a deepfake, které se po nich lavinově šíří s cílem manipulovat s lidmi či ovlivnit veřejné mínění. Jedním z příkladů je falešné video Volodomyra Zelenského, které se objevilo na počátku války na Ukrajině. V tomto videu Zelenský nabádal vojáky, aby se vzdali. „Když se na to podíváme s odstupem, je dobře, že se něco takového stalo v roce 2022, protože to video nebylo kvalitní a dalo se celkem jednoduše rozeznat, že jde o podvrh. Kdyby ho někdo vytvořil dnes za pomoci těch nejnovějších modelů, pravděpodobnost, že by napáchalo velké škody, je vysoká.“ Proto je třeba být neustále ve střehu a informace ověřovat z několika na sobě nezávislých zdrojů. „Když děláme přednášky pro veřejnost, často říkám, že dnes už nejde v digitálním prostoru věřit téměř ničemu, co člověk vidí a slyší.“
Nikdo nic nepozná
Všechny takové incidenty, ať už je jejich modus operandi jakýkoliv, mají jedno společné. Kvalita deepfake médií, ať už jde o fotografie, hlasy či videa a dokonce i videa v reálném čase, je natolik vysoká, že už podvody prakticky není možné rozpoznat. „Když jsme před zhruba čtyřmi roky začínali náš výzkum, potřebovali jsme k vytvoření podvržené hlasové nahrávky v přiměřené kvalitě zhruba 20 minut záznamu zdrojového hlasu, případně videa. Nyní už nám na to s nejmodernějšími modely stačí tři až čtyři vteřiny záznamu,“ říká Malinka s tím, že nyní lze už také navíc velmi jednoduše rozpohybovat fotografii zdrojovým videem. „Sebe bych tedy mohl nahradit obličejem někoho jiného a fotografie daného člověka by se hýbala dle toho, jak bych se já pohyboval a jak bych mluvil. I v reálném čase už jsou mimika, pohyb hlavy, úst či očí velmi solidní.“
Deepfake videa politiků či celebrit, která se i nyní ještě používají k investičním podvodům, jsou vytvořena nástroji starými zhruba dva až tři roky. A právě vzhledem ke stáří technologie je možné jejich nepravost rozpoznat celkem dobře. Typicky se stačí zaměřit na synchronizaci pohybu úst a hlasu, která není téměř nikdy úplně dokonale udělaná. Jenomže současné modely už jsou na takové úrovni, že se není prakticky čeho chytit. Což potvrzuje i výzkum, který na FIT VUT probíhá. Starší studie prokázaly, že lidé byli tehdy schopní odhalit zhruba 70 procent deepfaků. Pokusné osoby ale věděly, že mají deepfaky hledat a odhalovat.
Jenomže ve skutečnosti to takto nefunguje, při opravdovém pokusu o podvod pracují kyberzločinci s momentem překvapení. Proto výzkumníci provedli nedávno i jeden experiment, kdy lidem neřekli, že budou vystaveni deepfake médiím. „Předmětem testu byla použitelnost hlasových zpráv přes aplikaci WhatsApp, kdy jsme v určité fázi vyměnili hlas reálného člověka za hlas syntetický a sledovali jsme, zda lidé tento přechod poznají. Z účastníků testu tento přechod nerozpoznal nikdo, takže jsme se vlastně z těch 70 procent dostali na nulu, a to jsme používali technologii zhruba dva roky starou. Pouze jeden člověk rozpoznal změnu kvality zvuku, ale přičítal ji zhoršené kvalitě signálu. Lidé se ale jinak soustředili pouze na primární sdělení a vůbec nesledovali, jakou formu má. Nebyli totiž vůbec připraveni na to, že by mohli čelit útoku,“ popisuje Malinka.
Později proto proběhlo zopakování výzkumu, ale pokusné osoby tentokrát věděly o tom, že mezi hlasovými vzorky budou i deepfaky. „Výsledek ukázal, že situace se za těch pár let změnila, a i když lidé byli připraveni na to, že mají očekávat deepfake, rozdíl už nepoznal opravdu nikdo, více méně všichni jen tipovali. A ani my sami, i když jsme test vytvářeli, jsme mnohdy nepoznali, zda jde o pravý hlas, či ne,“ shrnuje Malinka.
Souboj umělých inteligencí
Výzkumný tým kolem Kamila Malinky se kromě analýz potenciálních rizik samozřejmě věnuje i možnostem obrany proti deepfakům. Z výše uvedeného je jasné, že jde o nesmírně komplikovaný proces, do nějž vstupuje velké množství proměnných, a že nikdy nelze zabezpečit vše. Každopádně jednou z možností, jak s deepfaky bojovat, je vycvičení neuronových sítí, které budou vyhledávat syntetická média. „Na akademické úrovni vývoj obdobných modelů probíhá, dokonce se mezi vědci pořádají i pravidelné soutěže, ale pokud je mi známo, tak se zatím žádné řešení nedostalo do komerční fáze. Byť už existují i pokusy antivirových firem o implementaci takových modelů do svých produktů. Úspěšnost detekce je ale zatím přinejmenším sporná,“ říká Malinka.
Základní problém je podle něj v tom, že když proti sobě mají stát dvě umělé inteligence, tak i onen protimodel potřebuje data, na nichž se může učit. V tomto případě potřebuje ukázky konkrétních útoků, jenomže taková data prakticky neexistují. Takže vývoj jde zatím směrem obrany naslepo, kdy se za pomoci dostupných syntetizátorů vytvoří deepfaky a na nich se obranný model trénuje. Což je hodně drahé a jen málokdo chce do takových technologií investovat.
Další možností obrany proti útokům stojí na vzdělávání zaměstnanců, aby dokázali útoky ve firemním prostředí detekovat. Ještě před rokem by stačilo lidem říkat, že stačí sledovat mimiku či synchronizaci hlasu a pohybu rtů, kvalitu zvuku i obrazu. To všechno zatím ještě i platí, ale momentálně už existují útoky tak kvalitativně na výši, u nichž tato vodítka nejsou. „Pokud máte podezření, že by videohovor, který právě s někým vedete, byl deepfake, nechte daného člověka pořádně zamávat rukou před obličejem ze strany obrazu na druhou, případně pořádně otočit hlavou. I sebelepší modely ještě takové změny nezvládají dokonale, takže obraz například zazrní, na chvilku se zasekne a podobně. Je také důležité vnímat kontext sdělení, tedy co osoba na videu říká a jaká je skutečnost,“ popisuje Malinka. Pomůže také pohyb v bezpečném IT prostředí, kde se musí účastníci hovorů autentizovat.
Důležitá je i obrana na úrovni samotných vývojářů modelů. Firmy by měly nést samy větší odpovědnost za své produkty a více hlídat, kdo může jejich produkty využívat. Případně do nich instalovat kontrolní mechanismy, které dokážou modely omezit. Takto to udělala například společnost Eleven Labs, jejichž hlasový model např. neumožňuje syntetizovat hlas Donalda Trumpa. Dále je možné přidávat určité digitální vodoznaky, díky nimž by bylo snáze detekovatelné, že jde o médium vytvořené AI. V neposlední řadě bude bude potřeba dostupnost a možnosti využívání regulovat také legislativně. První evropskou vlaštovkou je v tomto ohledu takzvaný AI Act, který určitou regulaci přináší. „Je třeba si ale uvědomit, že každé velké omezení znamená, že ztratíme náskok proti zemím, v nichž vývoj probíhá téměř bez jakýchkoliv legislativních hranic. A moment, kdy onen náskok ztratíme zcela, se nám může velmi vymstít. Je tedy třeba najít nějakou rovnováhu mezi smysluplnou ochranou a přílišným utlumením vývoje,“ tvrdí Malinka.
Internet a zejména sociální sítě jsou skutečně zaplavené velkým množstvím balastu, v němž se dá jen s velkými obtížemi orientovat. Každým dnem lidé sdílí záměrně či nevědomky dezinformace podpořené deepfake videi či fotografiemi, na něž se pak část uživatelů nachytá a dále je šíří. Dochází k hromadnému konfirmačnímu zkreslení a uzavírání do bublin, v nichž se pak deepfaky šíří s ještě větší rychlostí a páchají tak ještě větší škody. „Domnívám se, že míra onoho balastu bude v online prostoru ještě stoupat, a je proto extrémně důležité, jak budou lidé schopní pracovat se svou duševní hygienou, připravovat se na rizika zneužití a vzdělávat se. Jen těžko asi vznikne nějaký nový lightnet, takže se lidé budou muset zkrátka naučit s informacemi na současném internetu a sociálních sítích pracovat jinak. Případně časem vznikne poptávka po tom, aby poskytovatelé jasně a viditelně garantovali pravost obsahu na svých stránkách či kanálech,“ odhaduje na závěr Kamil Malinka.
Mgr. Kamil Malinka, Ph.D.
V současné době působí jako odborný asistent na Fakultě informačních technologií VUT v Brně.
Je také vedoucí výzkumné skupiny Security@FIT, která provádí výzkum v oblasti bezpečnosti informačních technologií.
Výukově se podílí zejména na předmětech ve specializaci Kybernetická bezpečnost.
Mezi jeho aktuální výzkumné zájmy patří bezpečnostní dopady AI a použitelná bezpečnost.