Jaro láká k cestování

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Bezpečné nebe

Američané se diví, proč by Evropané nechtěli F-35: jsou přece nejlepší

Zdraví

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Architektura

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Obchod s chudobou

Na TikToku se množí virtuální žebráci. Vydělávají na nich digitální parazité i samotná platforma

Den daňové svobody

Není zase tak zle, říká expert Liberálního institutu. Češi letos začnou vydělávat „na sebe“ už 2. června

Stovky dotazů najednou dokážou udělat s AI divy. — Foto: Shutterstock

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Umělou inteligenci lze zahltit různými neškodnými otázkami a zmást ji tak dokonale, že následně odpoví i na to, na co vlastně ze začátku vůbec nechtěla. Na tuto novou zranitelnost, které se říká many-shot jailbreaking, upozornili vývojáři Anthropic.

Kristina Blümelová

redaktorka

7. dubna 2024

•

Galerie (3)

Když se umělé inteligence, jako je třeba Claude či ChatGPT, zeptáte, jak sestrojit bombu, nebude chtít odpovědět, protože má dané určité etické limity. Avšak neznamená to, že takovou odpověď nezná. Zná. A když budete vědět, jak jí zamotat digitální hlavu, nakonec vám návod prozradí.

Techniku lze při troše šikovnosti použít na většině velkých jazykových modelů (LLM) včetně toho od Anthropicu, za nímž stojí odpadlíci z OpenAI. I proto se vývojáři z tohoto startupu tématu začali věnovat veřejně, upozorňují na problém i svou konkurenci a snaží se svou AI usměrňovat.

Oč vlastně jde? Klíčovou roli v problematice hraje kontextové okno, což je počet informací, které může velký jazykový model na vstupu zpracovávat. Ještě na začátku loňského roku mělo například toto okno u Anthropic LLM velikost jako dlouhá esej, tedy zhruba čtyři tisíce tokenů, přičemž jeden token se rovná čtyřem znakům.

Nyní má však okno velikost více než jednoho milionu tokenů, což – převedeno na znaky – vydá na několik dlouhých románů. A právě velikost kontextového okna přináší dosud netušená rizika.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM model odpoví i na škodlivé otázky.

Čím více subdotazů v rámci jednoho dotazu, tím toste pravděpodobnost, že LLM odpoví i na škodlivé otázky. Foto: Anthropic

Nejprve si ale pojďme vysvětlit, jak AI s dotazy pracuje. Pokud se jí uživatel (i v rámci jednoho komplexního dotazu) zeptá na pár neškodných či běžných, ale potenciálně rizikových (sub)dotazů, odpoví. Pokud by ale hned chtěl znát odpovědi na otázky, které by mohly být skutečně škodlivé, AI se omluví a „šprajcne“, protože ví, že na takové dotazy odpovídat nemá.

Jenomže modely s velkými kontextovými okny mají tendenci fungovat lépe, pokud musejí řešit velké množství úkolů najednou. Pak se jejich odpovědi zlepšují. Takže pokud člověk umělou inteligenci v rámci takového jednoho dotazu zahltí stovkami běžných či hraničních (sub)otázek a pak udeří tou poslední, která už je ale skutečně riziková, AI postupně cizeluje své odpovědi a úplně v ten moment zapomene na to, že už odpovídá na nevhodnou otázku a překročí své vlastní etické hranice.

„V naší studii jsme použili 256 dotazů, které předcházely finální otázce, kterak zkonstruovat bombu. A zjistili jsme, že platí přímá úměra, čím vyšší je počet obyčejných dotazů, tím roste pravděpodobnost, že LLM nakonec poskytne odpověď i na nevhodné dotazy.“

Vývojáře z Anthropicu samozřejmě zajímalo, jak je tohle všechno možné. Jak rychle a zda vůbec k tomuto průlomu dojde, podle nich souvisí s procesem učení v kontextu. Systém velkých jazykových modelů se v tom případě učí pouze na základě informací poskytnutých v rámci výzvy, bez jakéhokoli pozdějšího dolaďování.

„Zjistili jsme, že učení v kontextu se za normálních okolností, které nesouvisejí s jailbreakem, řídí stejným statistickým vzorcem jako many-shot jailbreaking. To znamená, že při větším počtu dotazů se výkon v sadě neškodných úloh zlepšuje se stejným typem zákonitosti, jakou jsme pozorovali u many-shot jailbreakingu.“

Unknown title by Mia Valisova created November 28, 2024 12:45:46 AM CET

Kristina Blümelová

Nejjednodušším způsobem, jak many-shot jailbreakingu zabránit, se jeví omezení délky kontextového okna. Anthropic se ale touto cestou vydat nechce, protože by lidé nemohli využívat výhod, které dlouhé kontextové okno jinak nabízí.

Proto se nejprve snažil vyladit model tak, aby odmítal odpovídat na dotazy, které vypadají jako many-shot jailbreaking útoky. „Bohužel tento zásah ale jen oddálil nevyhnutelné. Sice bylo třeba LLM model zasypat větším počtem dotazů, ale nakonec stejně podlehl.“

Naopak metody, které zahrnují klasifikaci a úpravu dotazu před jejím předáním modelu, se zatím jeví jako účinné. Jedna z těchto technik podstatně snížila úspěšnost many-shot jailbreakingu, kdy v konkrétním případě úspěšnost dokonce klesla z 61 procent na pouhá dvě procenta. „To ale neznamená, že jsme s prací hotoví. I nadále se na základě podnětů zabýváme tím, jak takovýmto průlomům našeho LLM účinně zabránit,“ uzavírají výzkumníci z Anthropicu.

AI Anthropic jailbreak ChatGPT umělá inteligence jazykové modely

Související články

Podcasty & Video

Hrotcast

Trump clem na auta přidusí hlavně Američany, jejich automobilky ale vyhrají. Osud Čechů mají v rukou Němci

Hrot Pavla Štrunce

Někdy se skoro stydím říct, že se živím golfem, říká šampionka Melichová. Za sezonu dá i dva miliony

Hrotcast

Do zbrojení nás tlačil už Obama. Evropa vlastní obranu podcenila, teď musí dluh začít urychleně splácet

Hrot Pavla Štrunce

Dubajská čokoláda, kterou testoval i Babiš. Je to fenomén a nestačíme vyrábět, říká majitel Čokoládovny Janek

Hrotcast

Evropa se pohřbívá sama. Nejde masivně zbrojit i dekarbonizovat současně, příští stanice jsou obrovské dluhy

Hrot Pavla Štrunce

SPM Invest koupila značku pánské módy Feratt. Chceme dopřát mužům top kvalitu, říká manažerka Lauková

Hrotcast

Realiťák Trump a stepní válečník Putin. Amerika už není supervelmoc, Evropu dusí Green Deal, říká Kohout

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Američané se diví, proč by Evropané nechtěli F-35: jsou přece nejlepší

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Na TikToku se množí virtuální žebráci. Vydělávají na nich digitální parazité i samotná platforma

Není zase tak zle, říká expert Liberálního institutu. Češi letos začnou vydělávat „na sebe“ už 2. června

Když umělou inteligenci zasypete stovkami dotazů, odhodí zábrany a odpoví úplně na cokoliv

Související články

USA zaspaly v robotizaci. Humanoidy umí nejlépe komunistická Čína

Další rána pro prestiž Kremlu. Rusko zaostává i ve vývoji umělé inteligence

Největší soukromá jaderná investice: šéf OpenAI slíbil, že postaví stovky malých reaktorů

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Chytré tričko, které bude zachraňovat životy. Vynález z Liberce probudí klimbající řidiče

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Dvě francouzské ministryně čelí žalobě kvůli sebevraždám zdravotníků

Teenager zabil rodiče, aby získal peníze na atentát na Trumpa. Týdny žil v domě s jejich těly

Klesá porodnost, země trpí „pandemií nezadaných“. Mileniálové a generace Z po dětech netouží

Tesla čelí hromadné žalobě kvůli podezření na úmyslné urychlování tachometru

Předvolební pat: ANO ztrácí, ale Spolu neposiluje dost. Koalice se rýsují složitě

Vrecionová: Nesmyslná americká cla jsou pro zemědělství v EU horší, než odveta vůči USA

USA jsou otevřené uznat Krym za ruské území jako součást mírové dohody, uvádí Bloomberg

VIDEO: „Silver je živý a je tady.“ Původně měla přijít slepička, ale je nemocná, říká Babiš

Tesla čelí hromadné žalobě kvůli podezření na úmyslné urychlování tachometru

USA jsou otevřené uznat Krym za ruské území jako součást mírové dohody, uvádí Bloomberg

Polský europoslanec vtrhl do nemocnice, aby „zatkl“ lékařku kvůli legálnímu potratu

Labyrint algoritmů a ráj lidskosti 37/54: Poutník se probouzí z digitálního snu

"Progresivní konzervativec" Lubor Zink: Muž, který dal 17. listopadu světový rozměr – a byl za to zapomenut

Nehezký konec kalokracie aneb když krásní vládnou

"Národní nepotismus" je stejně limitující jako „euro-nepotismus“

Rozhovor s Vladimírem Štěpánem

Po více než sedmi stoletích se katedrála svatého Víta dočká svého symbolického dokončení – právě teď uvnitř roste kolosální lešení pro montáž zbrusu nových varhan

Pražská ZOO rozjíždí Velikonoční program - můžete se těšit na workshopy, krmení, trénink lachtanů a další rodinné aktivity

Obchodní válka mezi Spojenými státy a Čínou může ještě zlevnit čínské zboží vyvážené do Evropy, mohlo by ho tak být ještě víc