Umění udělat dohodu

Američtí miliardáři velebí Trumpa: pauza ve clech je mistrovský tah ve vyjednávání

Obchodní bariéry

Pro dobrotu na žebrotu: Tchajwanci slíbili, že v USA investují biliony. Trump je stejně tlačí obřími cly

Padouch nebo hrdina

Marvel odhalil hvězdné obsazení nových Avengerů. Kdo zabrání Robertu Downeymu Jr. zmocnit se mnohovesmíru?

Konec čínské nadvlády?

Indie brzy obuje celý svět. V tamním teniskovém průmyslu právě probíhá revoluce

Trumpovo ekonomické uvažování je čistý stand-up. Cla jsou jako Černobyl, říká Bartoň z Datarunu

Stovky dotazů najednou dokážou udělat s AI divy. — Foto: Shutterstock

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Kristina Blümelová

redaktorka

7. dubna 2024

•

Galerie (3)

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat.

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM model odpoví i na škodlivé otázky.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky. Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice.

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

Unknown title by Mia Valisova created November 28, 2024 12:45:46 AM CET

Kristina Blümelová

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.

AI Anthropic jailbreak ChatGPT umělá inteligence jazykové modely

Související články

Podcasty & Video

Hrotcast

Trump clem na auta přidusí hlavně Američany, jejich automobilky ale vyhrají. Osud Čechů mají v rukou Němci

Hrot Pavla Štrunce

Někdy se skoro stydím říct, že se živím golfem, říká šampionka Melichová. Za sezonu dá i dva miliony

Hrotcast

Do zbrojení nás tlačil už Obama. Evropa vlastní obranu podcenila, teď musí dluh začít urychleně splácet

Hrot Pavla Štrunce

Dubajská čokoláda, kterou testoval i Babiš. Je to fenomén a nestačíme vyrábět, říká majitel Čokoládovny Janek

Hrotcast

Evropa se pohřbívá sama. Nejde masivně zbrojit i dekarbonizovat současně, příští stanice jsou obrovské dluhy

Hrot Pavla Štrunce

SPM Invest koupila značku pánské módy Feratt. Chceme dopřát mužům top kvalitu, říká manažerka Lauková

Hrotcast

Realiťák Trump a stepní válečník Putin. Amerika už není supervelmoc, Evropu dusí Green Deal, říká Kohout

Američtí miliardáři velebí Trumpa: pauza ve clech je mistrovský tah ve vyjednávání

Pro dobrotu na žebrotu: Tchajwanci slíbili, že v USA investují biliony. Trump je stejně tlačí obřími cly

Marvel odhalil hvězdné obsazení nových Avengerů. Kdo zabrání Robertu Downeymu Jr. zmocnit se mnohovesmíru?

Indie brzy obuje celý svět. V tamním teniskovém průmyslu právě probíhá revoluce

Trumpovo ekonomické uvažování je čistý stand-up. Cla jsou jako Černobyl, říká Bartoň z Datarunu

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Související články

Další rána pro prestiž Kremlu. Rusko zaostává i ve vývoji umělé inteligence

Největší soukromá jaderná investice: šéf OpenAI slíbil, že postaví stovky malých reaktorů

Testováno na Rusech. Startup Helsing představil útočné drony, slibuje chytré a laciné zbraně

Suroviny na velikonoční pečení opět podražily. Nejvíc vejce a vanilkový cukr

Make shower great again. Trump zrušil omezení tlaku vody ve sprchách, kvůli své „krásné hlavě“

Ruští námořníci objevili ponorku, která se ztratila za druhé světové války. Hledali ji dvacet let

Americký průmysl pod Trumpem: Více strojů, méně lidí

Číňan se opravdu zlobí. Peking v odvetě napálil USA cla na 125 procent

Nevratné zálohy a žádná baterie. Tesla zrušila kontroverzní vychytávku pro Cybertruck

Zkoumali DNA ze slin. Americký výrobce oblíbených testů teď čelí bankrotu

Další uprchlíci pro Německo. Letadlo přivezlo téměř 200 Afghánců

Spolu spouští předvolební kampaň, musí dohánět náskok hnutí ANO. Dojde na kanadský scénář?

Poslední vynález podvodníků – padělají průkazy policie. Lidé už přišli o miliony

Ekonom Singer: Tarify – aneb komedie plná omylů

Rusové postupují. Jejich vojska se přiblížila k Dněpropetrovské oblasti

„K účtům má přístup jen úzký tým.“ Chrání vláda, prezident i resorty své sociální sítě?

Gazdík, Bek, Pekarová Adamová, Dvořák. Kdo všechno nebude obhajovat mandát?

Anonymní dárcovství spermií v Německu z dobrých důvodů zakázali. V Česku se politici jen dohadují

„K účtům má přístup jen úzký tým.“ Chrání vláda, prezident i resorty své sociální sítě?

Poslední vynález podvodníků – padělají průkazy policie. Lidé už přišli o miliony

Labyrint algoritmů a ráj lidskosti 34/54: Poutník stojí před soudem digitálního světa

Každý občan si postaví svého politického agenta: Demokracie řízená daty a algoritmem

Duchovní svět je fenoménem

Nejvyšší státní zástupkyně Bradáčová na zákon kašle

S Beatles to bylo stejné, jako dnes s hip-hopem. Měli schopnost zachytit atmosféru doby, říká hudební publicista Josef Vlček

Priority USA a české opozice se stále více vzdalují. ANO může vyčkávat a upravovat stanoviska, říká Lukáš Jelínek

Miroslav Singer: Trump cla používá jako nátlakovou metodu

Rozhovor s europoslancem Tomášem Zdechovským