Za 12 vteřin ukrást 25 milionů dolarů? Nové technologie ohrožují bezpečnost bank

Bankovní systémy potřebují výrazně posílit ochranu před riziky, která přinesly nové technologie, blockchain a umělá inteligence 

Bankovní systémy potřebují výrazně posílit ochranu před riziky, která přinesly nové technologie, blockchain a umělá inteligence 

Celý článek
0

Do Behavia přiteče přes 55 milionů korun. S českou firmou, která zlepšuje reklamu, si plácli Nizozemci

České Behavio, které vylepšuje reklamy tak, aby měly skutečný efekt, získalo další finanční injekci. Nizozemci mu poslali přes 55 milionů korun. Peníze chce firma použít na nové funkce umělé inteligence a další expanzi.

České Behavio, které vylepšuje reklamy tak, aby měly skutečný efekt, získalo další finanční injekci. Nizozemci mu poslali přes 55 milionů korun. Peníze chce firma použít na nové funkce umělé inteligence a další expanzi.

Celý článek
0

Proč je český tendr na nové reaktory pro francouzskou EdF zásadní

Francouzský státní koncern EdF netrpělivě čeká na rozhodnutí české vlády, kdo postaví až čtyři nové bloky v jaderných elektrárnách Temelín a Dukovany. Jde o zakázku za stovky miliard korun. Od zakázky Hinkley Point v Británii z roku 2016 by se pro EdF jednalo teprve o druhý zahraniční projekt v Evropě.

Francouzský státní koncern EdF netrpělivě čeká na rozhodnutí české vlády, kdo postaví až čtyři nové bloky v jaderných elektrárnách Temelín a Dukovany. Jde o zakázku za stovky miliard korun. Od zakázky Hinkley Point v Británii z roku 2016 by se pro EdF jednalo teprve o druhý zahraniční projekt v Evropě.

Celý článek
0

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv
Stovky dotazů najednou dokážou udělat s AI divy. | Foto: Shutterstock

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat. 

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky.
Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice. 

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

 

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“ 

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.