Jak těžké by bylo na této úrovni vyrobit podobou věc? Více, než by se mohlo zdát.
Připomeňme si na začátek, o co v uvedené nahrávce šlo.
„Jo a prosím tě, Pavle. Já mám ještě jednu věc.“ „Jakou?“ „No, hele, já jsem ještě nedostal od (nezřetelné jméno) zbytek těch peněz za tu volbu. Víš co? Jde o princip.“
Představme si na chvilku svět, ve kterém skutečně nějaká „sörosovská“ úderka, případné jiné havloidně-diverzní centrum, pořídila deepfake nahrávku obou radních, kteří se podle toho, co je venku, bavili o půl milionu na stole v českých za něco, co má být motivováno srdíčkem a rozumem. Ne penězi.
Amatérům rum
Na koleni dnes vyrobí leccos i naprostý amatér a má k tomu k dispozici i nástroje dostupné zdarma. A nepotřebuje skoro nic, než – hypoteticky – pár desítek vteřin „Matochy“ a „Bradáče“. Problém je, že takový deepfake je nejen relativně snadno odhalitelný, ale především při účel teoreticky zamýšlené veřejné diskreditace zcela nepoužitelný.
To, co koluje, je nahrávka působící mimořádně autenticky. Podezření, že je pravá, ještě násobí skutečnost, že byla zveřejněna její původní verze, s „nevytaženými“ hlasy obou jmenovaných při hořekování jednoho směrem k druhému na téma ještě jsem nedostal půl milionu za hlasování.
Na té je přehršel původních ruchů a dalších hlasů. Přes obecně vžitou představu, že dnes je díky AI technologiím možné leccos, nota bene za peníze, je představa, že tohle někdo vyrobí a takto použije, přeci jen přitažená za vlasy. Na to, jak je údajný deepfake „kvalitní“, by to rozhodně byla piplačka na hranici dnes běžných možností. a ne naopak.
„Ve veřejných AI nástrojích lze takovou nahrávku udělat, mně osobně by trvalo vytvořit podobnou nahrávku několik hodin. I přesto by to ale bylo plné chyb, kterých si divák, který zná tyto osoby, hned všimne,“
— specialista na AI Lukáš Eršil
Pokud by nahrávku radních ČT Pavla Matochy a Romana Bradáče vyráběli profesionálové jako podvrh, proces by obnášel nejen dost práce, ale také přípravy. Profesionální klonování by jen u obou radních zabralo nejprve pár hodin u sběru dostupných záznamů jejich hlasu. Ideálně čistého. Fajn, oba aktéři jsou veřejné osoby a nejen díky jejich členství v Radě ČT takové záznamy ve veřejném prostoru existují.
Práce jak na kostele
Poté by musel útočník-profesionál model tak zvaně „trénovat“, jinak by to nefungovalo, resp. dobré by to bylo tak možná jako fórek do hospody, který stejně první příčetný posluchač odhalí.
Udělat deepfake pomocí AI dnes není těžké. Těžké je udělat uvěřitelný deepfake v kvalitě, která odpovídá realitě.
Profesionál by musel využít specializované nástroje (často open source, ale pořád specializované a je třeba s nimi umět pracovat), které umožňují např. jemné ladění přízvuku a specifických slovních obratů. Jiná cesta není.
„Ve veřejných AI nástrojích lze takovou nahrávku udělat, mně osobně by trvalo vytvořit podobnou nahrávku několik hodin. I přesto by to ale bylo plné chyb, kterých si divák, který zná tyto osoby, hned všimne,“ říká specialista na AI Lukáš Eršil a dodává, jak to aktuálně chodí u běžných deepfake videí, jejich tvorbě a výstupech, určených ale „běžnému“ spotřebiteli:
„Udělat deepfake pomocí AI dnes není těžké. Těžké je udělat uvěřitelný deepfake v kvalitě, která odpovídá realitě. Dnešní AI generátory nezvládají uvěřitelný lip-sync (hýbání pusou), když se baví česky. Generátory jako VEO3.1 to sice zvládají, ale budou se muset ,kreativně' obcházet limity, že jde o veřejnou osobnost.“
Co obnáší výroba jakéhos takéhos deepfake na vysoké amatérské, ale pořád amatérské úrovni, o tom si můžete udělat představu v prakticky nepřeberné studnici internetu:
Laik si může mylně představovat profesionální nástroj, který vytvoří na objednávku umělý rozhovor napsaný jako scénář a vložený obětem deepfake do úst. Kdepak.
V případě operace, jakou nastiňuje při své veřejné obhajobě radní Pavel Matocha, by útočník po tréninku příslušných modelů pravděpodobně nahrál dialog sám a poté nechal (zjednodušeně řečeno) umělou inteligenci „převléknout“ barvy hlasu „na Matochu a Bradáče“.
Jedině tak se i přes překotnost inovací dá v současnosti zajistit „umělá“ lidská intonace autentického objektu podvrhu. Na amatérské bázi s využitím dostupných online AI hraček pro „zábavu“ by nebylo možné na podobnou vysokou hru s jakoby pravou nahrávkou level rozbuška ani pomyslet. Postrádala by nejen čistou intonaci, emoce anebo třeba váhavost v hlase, tedy atributy, které prosté generování z pouhého textu nemůže „doručit“.
A to jsme ale pořád jen u Matochy a Bradáče. Nahrávka zveřejněná serverem FORUM 24 má dost vrstev na to, aby s ní měl případný profesionál ještě dost práce nad rámec výše uvedeného v postprodukci. Musel by citlivě postupně uměle přidávat hluk prostředí, ruchy, hlasy (místy snad dokonce konkrétní) a další drobné artefakty, aby nahrávka působila jako autentický tajný záznam na mobilní telefon nebo jiné zařízení umožňující pořízení podobného záznamu v příslušných podmínkách.
Co o důvodech zveřejnění nahrávky říká Marek Wollner?
Real Karel
Když před dvěma lety „vyráběli“ v ČRo v rámci projektu Gott navždy hlas Karla Gotta pro načtení jeho autobiografie, šli na to opačně a je na tom krásně vidět, proč Matochu s Bradáčem patrně nikdo dokonale nenafejkoval.
Z etických důvodů samozřejmě „umělý Gott“ načítal jen svůj vlastní text. Z toho vycházela AI při reprodukci mistrova hlasu. Pro představu: Za pomoci odborníků z katedry kybernetiky ZPÚ Plzeň a profesionálů ze soukromého sektoru (SpeedTech) se nakonec podařilo generovat fonetického „Gotta“ skvěle. Ale předtím bylo třeba vytřídit použitelnou desetinu z dvou set hodiny dostupných záznamů jeho hlasu a model se postupně učil a učil, než vystřihl na základně předloženého textu akustický signál lvl. „real Karel“.
„Je potřeba, aby tady bylo jasno, jestli je to skutečně reálný rozhovor nebo je to umělá inteligence, nebo co to vlastně je. Ale určitě taková věc je nepřijatelná.“
— premiér Andrej Babiš
Ačkoli uběhly avizované dva roky, je to fuk. Z výše uvedeného je možné racionálně vyvozovat zásadní pochybnosti o tom, že by někde někdo na základně zadání dokázal vytvořit na takto špičkové úrovni „Matochu a Bradáče“. Navíc je tu problém analýzy. Tak jako se dnes nabízí v každém internetovém koutě appka a zaručený návod na „deepfake za 10 minut“, tak se zdokonalují „obranné magie“ , které už dnes i na low-cost úrovni slušně rozeznávají deepfake.
A co teprve na té profesionální. Policie dnes běžně používá nástroje, které jednoznačně určí, zda je hlasový záznam autentický, či ne. V době masového rozšíření tzv. voice fishingu jsou podobné nástroje na špičkové úrovni běžně dostupné a mimochodem, Češi (Phonexia) jednu z nejlepších na světě úspěšně „vyvážejí“.
Profesionální konspirace spočívající v kompromitující deepfake nahrávce našich dvou domnělých uličníků by musela kromě všech výše uvedených „výrobních“ nároků předem automaticky také počítat se sofistikovanými kontrolními mechanismy, které by celou věc „sežraly“, jen by to na vážno na tuto mocenskou kliku někdo zkusil.
Nezávisle na tom, co se kolem samotné volby třetí týden děje, místy komická „debata“ Matochy se zbytkem světa kolem autenticity nahrávky probíhá dál. Do věci se vložil premiér Andrej Babiš (ANO), který Deníku řekl, že chce vyjasnění zvukového záznamu. Koaliční rada se dohodla, že se radní ČT nebudou volit na aktuální schůzi Sněmovny. Bradáč a Matocha podali trestní oznámení pro pomluvu.
„Domluvili jsme se, že se nebude volit a že je potřeba, aby tady bylo jasno, jestli je to skutečně reálný rozhovor nebo je to umělá inteligence, nebo co to vlastně je. Ale určitě taková věc je nepřijatelná,“ řekl premiér.







