Od umělé inteligence k robotům. A ti se připravují na vstup do našeho světa
Startup Covariant pomáhá skladovým robotům, aby se dokázali orientovat v reálném světě stejně, jako se ChatGPT orientuje v textu. Pomocí obrovských porcí dat je učí, aby uměli uchopit tričko, mobilní telefon nebo – dejme tomu – banán, ačkoli je nikdy před tím neviděli.
redaktor
Společnosti jako OpenAI a Midjourney vytvářejí chatboty, generátory obrázků a další nástroje umělé inteligence, které fungují v digitálním světě. Startup Covariant, jejž založili bývalí výzkumníci OpenAI, nyní přenáší metody výuky umělé inteligence z digitálního do fyzického světa. Cílem je vytvořit umělou inteligenci, která se dokáže orientovat v našem reálném světě podobně, jako se chatboty umějí orientovat v textu.
Covariant, firma se sídlem v kalifornském Emeryville, vyvíjí metody, pomocí kterých mohou roboti zvedat, přesouvat a třídit zboží, které je přepravováno ve skladech a distribučních centrech.
Jejím cílem je pomoci robotům pochopit, co se děje kolem nich, a rozhodnout, co mají dělat dál. Tato technologie robotům navíc umožňuje slušně ovládat angličtinu, takže si s nimi lidé mohou povídat, jako by si povídali s ChatGPT.
Hudba budoucnosti
Řečená technologie dnes zdaleka není dokonalá. Naznačuje však, že systémy umělé inteligence, které pohánějí online chatboty a generátory obrázků, nejspíše budou brzy pohánět také stroje ve skladech, na silnicích a v domácnostech.
Stejně jako chatboti a generátory obrázků se tato robotická technologie učí svým dovednostem analýzou obrovského množství digitálních dat.
Covariant, jenž od investorů dosud vybral 222 milionů dolarů, roboty přímo nevyrábí. Vyvíjí však software, který roboty pohání. Cílem firmy je nasadit svou novou technologii do „hlav“ skladových robotů a poskytnout ostatním plán, jak udělat totéž ve výrobních závodech a možná i na silnicích se samořiditelnými auty.
Systémy umělé inteligence založené na neuronových sítích, které řídí chatboty a generátory obrázků, umějí rozpoznávat vzorce v obrovském množství dat. Mohou se tak naučit rozeznávat slova, zvuky a obrázky – nebo je dokonce samy vytvářet.
Takto společnost OpenAI vytvořila ChatGPT a dala mu schopnost okamžitě (ač s různou mírou přesnosti) odpovídat na otázky, psát seminární práce a generovat počítačové programy. Tyto dovednosti se naučil díky analýze obrovského množství textů získaných z internetu.
Jak to funguje
Dnes firmy z branže vytvářejí systémy, které se mohou učit z různých druhů dat současně. Například analýzou sbírky fotografií a popisků, které tyto fotografie charakterizují, může systém pochopit vztahy mezi nimi. Může se například naučit, že slovo „banán“ popisuje zakřivené žluté ovoce.
OpenAI použila právě takový systém při výuce nového generátoru videí Sora. Analýzou tisíců videí s popisky se systém naučil generovat videa, když mu zadáte krátký popis scény, například „nádherně vykreslený papírový svět korálového útesu, plný barevných ryb a mořských živočichů“.
Společnost Covariant, kterou založil Pieter Abbeel z University of California v Berkeley (a někdejší výzkumník OpenAI) se třemi svými někdejšími studenty, použila podobné techniky při vytváření systému, který řídí roboty v reálném světě.
Firma pomáhá řídit třídicí roboty ve skladech po celém světě. Roky sbírala data z kamer a dalších senzorů, která ukazují, jak tito roboti fungují.
Kombinací těchto dat s obrovským množstvím textů, které se používají k trénování chatbotů, jako je ChatGPT, společnost vytvořila uměle inteligentní technologii, díky níž její roboti rozumějí svému okolí daleko lépe než jejich předchůdci.
Identifikace vzorců ve směsi obrazů, smyslových dat a textu dává robotům schopnost řešit nečekané a nové situace ve fyzickém světě. Jinak řečeno robot ví, jak zvednout banán, i když ho nikdy předtím neviděl.
Dokáže také reagovat na jednoduchou angličtinu, podobně jako chatbot. Když mu řeknete „zvedni banán“, ví, co to znamená. Pokud mu řeknete „zvedni žluté ovoce“, rozumí i tomu. (Je samozřejmě otázka, jak porozumí třeba povelu „Vodpal!“)
Takto cvičený robot dokáže dokonce generovat videa, která předpovídají, co se pravděpodobně stane, když se pokusí zvednout banán. Tato videa nemají praktické využití ve skladu, ale ukazují, že robot rozumí tomu, co se kolem něho děje. „Pokud dokáže předvídat další snímky ve videu, může určit správnou strategii, která má následovat,“ vysvětluje Abbeel.
Cena za chybu
Technologie ovšem stále dělá chyby, podobně jako se jich dopouštějí chatboti. Ačkoli roboti často rozumějí tomu, co po ní lidé žádají, vždy existuje možnost, že neporozumí. Čas od času jim vypadnou předměty.
Gary Marcus, podnikatel v oblasti umělé inteligence a emeritní profesor psychologie a neurovědy na New York University, uvedl, že tato technologie by mohla být užitečná ve skladech a vůbec v prostředích, kde jsou chyby přípustné. Její nasazení ve výrobních závodech a dalších potenciálně nebezpečných situacích by však podle něj bylo obtížnější a rizikovější.
„Jde o cenu, jakou zaplatíte za chybu,“ říká. „Pokud máte 150kilového robota, který může udělat něco škodlivého, může být taková cena velmi vysoká.“