Hrot24.cz
Proč může Llama halucinovat o zaječích ocáscích? Vědci varují před způsobem, jakým se učí jazykový model Mety

Hrot24, vygenerováno v Midjourney

Proč může Llama halucinovat o zaječích ocáscích? Vědci varují před způsobem, jakým se učí jazykový model Mety

Meta ohlásila novou verzi svého jazykového modelu Llama. Ten se učil i na datech, která produkuje AI. A před tím varují vědci, protože to podle nich může vést až ke zhroucení modelu.

Kristina Blümelová

Společnost Meta oznámila, že vydává nový jazykový model Llama 3.1 405B. Stejně jako předchozí modely je i tento k dispozici ke stažení nebo použití například na cloudových platformách AWS, Azure a Google Cloud. Učení podle Mety probíhalo i na syntetických datech, což je postup, který ale může podle vědců modely výrazně poškozovat.

Velký jazykový model (LLM) Llama 3.1 405B obsahuje 405 miliard parametrů, což z něj dělá jeden z největších modelů posledních let. Parametry můžeme chápat jako vnitřní proměnné, které modely strojového učení upravují během procesu trénování tak, aby zlepšily svou schopnost provádět přesné předpovědi. Zároveň platí, že čím více parametrů modely mají, tím v obecné rovině dosahují lepších výsledků.

Podle blogu Meta byl model vycvičen pomocí 16 tisíc grafických procesorů Nvidia H100 a k tomu těží také z novějších tréninkových a vývojových technik, díky nimž je konkurenceschopný s předními proprietárními modely, jako je GPT-4o společnosti OpenAI a Claude 3.5 Sonnet společnosti Anthropic.

Do současné doby použila Meta k tréninku modelu datovou sadu 15 bilionů tokenů, tedy různě rozdělených částí textu či slov, díky nimž modely zpracovávají přirozený jazyk. A jen pro zajímavost, 15 bilionů tokenů znamená v přepočtu 750 miliard slov.

Podle Mety se však nejedná o zcela novou tréninkovou sadu, protože vývojáři použili základní sadu k trénování dřívějších modelů Llama. Společnost ale tvrdí, že v porovnání s předchozími verzemi systému zlepšila nejen množství, ale i kvalitu vstupních dat, která se používají pro pre- a posttrénink. 

Učení na syntetických datech? Pozor na degeneraci

Trénink modelu Llama 3.1 405B však podle Mety probíhal i na syntetických datech, což jsou v obecném slova smyslu všechna data, která jsou generována umělou inteligencí. Touto možností se v současné době zabývají i ostatní velcí hráči z oblasti vývoje umělé inteligence, avšak někteří odborníci se domnívají, že takový postup by mohl vést až ke kolapsu modelu.

Jednu takovou studii nyní publikoval tým britských a kanadských vědců vedený Iljou Šumajlovem z Oxfordu v časopise Nature. Jejich výzkum ukázal, že učení LLM generativních modelů na syntetických datech vede k degenerativnímu procesu, při kterém modely časem zapomínají na skutečné základní rozdělení dat, postupně data znečišťují, až nakonec realitu vnímají zcela nesprávně a generují absurdní výsledky.

Výzkumníci okolo Ilji Šumajlova nejprve pomocí LLM vytvořili hesla podobná Wikipedii a poté trénovali nové iterace modelu na textu vytvořeném jeho předchůdcem. Jakmile informace vytvořené umělou inteligencí (syntetická data) znečistily tréninkovou množinu, z výstupů modelu se staly doslova bláboly.

Už první výstup z modelu (generace 0) obsahoval drobné chyby, ale devátá iterace modelu doplnila článek ve stylu Wikipedie o anglických kostelních věžích pojednáním o různých barvách zaječích ocásků. A tento problém se podle další studie, provedé Hany Faridem z Kalifornské univerzity v Berkeley a Matyášem Boháčkem ze stanfordské univerzity, týká i obrazových modelů, jakým je například Midjourney. 

Model generace 0

Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of per- pendicular churches : those.

Model generace 9 

architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-

Proč k tomuto zhroucení vlastně došlo? Velké jazykové modely fungují tak, že vytvářejí asociace mezi tokeny v obrovských svazcích textu, často stažených z internetu. Požadovaný výstup pak vytvářejí tak, že na základě těchto naučených vzorců v podstatě „vyplivnou“ další statisticky nejpravděpodobnější slovo.

Slova, která se v původních datech vyskytovala zřídka, mají samozřejmě menší pravděpodobnost, že budou reprodukována. A naopak pravděpodobnost, že budou reprodukována slova běžná, se zvyšuje. Nakonec dojde k úplnému zhroucení, protože každý model se neučí z reality, ale z představy o realitě generované předchozím modelem, přičemž chyby se v každé iteraci zesilují.

„Časem se tyto chyby začnou vršit jedna na druhou, až se model v podstatě učí pouze chyby a nic jiného,“ uvedl k tomu Ilja Šumajlov s tím, že kolaps modelu neznamená, že LLM přestanou fungovat, nicméně náklady na jejich výrobu se podle něj zvýší. „Vývojáři asi budou muset najít způsob, jak například pomocí vodoznaku oddělit data generovaná umělou inteligencí od skutečných dat.“

Což by mimochodem vyžadovalo zásadní koordinaci ze strany velkých technologických firem, jako je třeba právě Meta, která na syntetických datech svůj jazykový model učí.