Jaro láká k cestování

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Bezpečné nebe

Američané se diví, proč by Evropané nechtěli F-35: jsou přece nejlepší

Zdraví

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Architektura

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Obchod s chudobou

Na TikToku se množí virtuální žebráci. Vydělávají na nich digitální parazité i samotná platforma

Den daňové svobody

Není zase tak zle, říká expert Liberálního institutu. Češi letos začnou vydělávat „na sebe“ už 2. června

Automatické překladače: Rychlé a přesné, ale vtip nepochopí

Automatické překladače se dokážou s komerčními texty vypořádat levněji a na stejné úrovni jako profesionální překladatelé. Na literaturu jsou ale ještě krátké.

Pavla Hubálková

stálá spolupracovnice redakce

10. července 2021

„Damage to speak, my expensive friend. - Škoda mluvit, můj drahý příteli.“ Podobné perličky způsobené automatickými překladači při překladu z češtiny nebo do ní jsou nejspíš už minulostí. Dnešní strojové překlady založené na metodách umělé inteligence jsou již téměř k nerozeznání od těch lidských. „Výstupy z našeho strojového překladače CUBBITT byly v zaslepených testech hodnoceny dokonce jako obsahově přesnější a jen o něco méně plynulé než překlady lidské,“ říká Martin Popel z matfyzu Univerzity Karlovy. Strojový překladač CUBBITT začal vznikat v roce 2017 a již o rok později s přehledem vyhrál mezinárodní soutěž strojového překladu a stále se zlepšuje, nyní již například překládá v kontextu celého textu. Od letošního března je čeština dostupná i v německém překladači DeepL. „O DeepL toho moc nevíme, přísně si střeží své know-how a soutěží strojového překladu se neúčastní. Podle kvality překladů ale lze usuzovat, že vycházejí z podobných metod strojového učení,“ shrnuje Popel.

Za úspěch českého překladače, jak to tak u významných vědeckých objevů bývá, může vlastně chyba. V minulosti se strojové překladače trénovaly na dvou zdrojích dat náhodně smíchaných dohromady - na překladech autentických (anglické věty přeložené lidmi do češtiny) a syntetických (české věty strojově přeložené do angličtiny). „Jednou jsem toto mísení omylem zapomněl zapnout, když jsem to pak zjistil a,opravil‘, všiml jsem si skokového zhoršení výsledků překladu,“ popisuje hlavní vývojář Popel, jak zjistili, že je mnohem lepší neuronové sítě trénovat zvlášť.

doc. RNDr. Ondřej Bojar, Ph. D.

Zabývá se strojovým překladem v Ústavu formální a aplikované lingvistiky na Matematicko-fyzikální fakultě UK. Je jedním z iniciátorů spolku prg.ai, který chce z Prahy udělat světové centrum umělé inteligence.

Překládá, ale nerozumí

Odborníci si zpočátku mysleli, že pro kvalitní překlad bude nutné porozumění. „Výsledky metod hlubokého strojového učení však ukázaly, že strojové překladače překládají na stejné úrovni jako lidé, aniž by obsahu rozuměly,“ říká odborník na umělou inteligenci a strojové překlady Ondřej Bojar z matfyzu.

Dnešní neuronové sítě při trénování „přečtou“ mnohonásobně větší objem textu, než je schopen zvládnout člověk za celý život. Z toho pak umějí chytře odhadnout, co se v dané situaci a kontextu říká nejčastěji. „A dělají to tak dobře, že to vypadá inteligentně - jako člověk. Bohužel ale jen v úzce specifické oblasti, na kterou byly natrénovány, a navíc slepě kopírují všechny stereotypy z dat, včetně genderových, což je jim právem vytýkáno,“ dodává Bojar.

Současná umělá inteligence tak pouze statisticky recykluje informace již dříve přeložené lidmi. „Vychází jen z toho, co je slovo od slova přímo obsažené v textu - nemá z čeho natrénovat kontext,mezi řádky‘ nebo třeba intonaci vyjadřující ironii,“ říká odborník na strojové učení. Pro skutečnou inteligenci by stroje musely mít všechny lidské prožitky - nejen slova, ale i odezvu lidského těla a všechny vjemy vnějšího okolí. Navíc člověk se učí po celý život a působí na něho mnoho nevědomých stimulů, které - zatím - strojově zachytit neumíme.

Mgr. Martin Popel, Ph. D.

Je hlavním vývojářem strojového překladače CUBBITT (dostupný na webu https://lindat.cz/cubbitt), který vyhrává soutěže strojových překladů a svojí kvalitou poráží i lidské překladatele. Vyučuje a vědecky působí v Ústavu formální a aplikované lingvistiky MFF UK.

Mluvené slovo a překladač samouk

Trénovací data jsou přitom klíčová a k výraznému rozvoji strojových překladů přispívá i Evropská unie. Ta si dala za cíl a jako jednu z ústředních hodnot zachovat si svoji jazykovou diverzitu a nabízet rovný přístup všem svým občanům. „Tak vznikly obrovské objemy obsahově stejných textů přeložených ve 24 jazycích a na nich teď systémy pro jednotlivé jazyky trénujeme,“ popisuje Bojar. V dalším projektu ELITR, zaměřeném na rozpoznávání a překlad mluveného slova, pracují se 43 jazyky, kdy je zřetelně vidět velký rozdíl mezi kvalitou překladů v evropských jazycích a kvalitou překladů pro jiné jazyky, kde tato trénovací „EU data“ chybí. U mluveného slova je ale prý paradoxně největší problém rozpoznat interpunkci a konce vět, což je zásadní pro správný překlad. „Každá věta je zaznamenaná myšlenka, a když budete překládat věty, které mají posunutou interpunkci - půl myšlenky v jiné větě, povede to k nesmyslům,“ vysvětluje současná úskalí Bojar.

Na matfyzu zkoumají například i takzvaný neřízený strojový překlad, kdy se systém učí překládat sám jen na základě velkého objemu textů v jednom jazyce a nesouvisejících textů v jazyce druhém. Principem takového učení je takzvaná vektorová reprezentace slov, kdy je v matematických vektorech zaznamenán kontext daného slova. Při porovnání vektorů v jednotlivých jazycích pak systém dokáže určit, která slova jsou si překladem. „Je to samozřejmě velmi hrubý systém, který dělá hodně chyb, ale dostanete se překvapivě daleko,“ komentuje Bojar.

Učte se jazyky

Pro řadu situací, kdy je hlavním účelem překlad informací, je strojový překlad nejen mnohem rychlejší a levnější, ale i přesnější. A lze tedy očekávat, že poptávka po komerčních překladech výrazně opadne. Spisovatelé a jejich překladatelé ale zatím mohou být v klidu. „Kniha je literární dílo a překladatel je svým způsobem také jeho autorem. Musí vystihnout náladu, ducha, což se mu nepodaří jen tím, že správně přeloží význam slov,“ míní Popel. A dodává, že podobné je to pro humor, ironii nebo slovní hříčky a poezii. Překladač má také zásadní problémy s tykáním a vykáním či rozpoznáním pohlaví mluvčího nebo již zmíněným kopírováním stereotypů.

„I když dnes se již pomocí překladače dorozumíte, učte se jazyky - pobyt v cizím prostředí bez znalosti jazyka je bolestivý a ochuzující především o zážitky s místními lidmi, ale i o trénink pro mozek,“ apeluje Bojar. Podle něho znalost cizího jazyka přidává do života nový rozměr, protože se učíte nové vztahy mezi pojmy, které znáte v mateřštině, a tím zvyšujete kognitivní kapacitu mozku. A dnes již víme, že ve stáří dochází ke kognitivnímu úbytku a je výhodné mít odkud brát - mít rezervu.

Umělá inteligence

Velmi široký a ne zcela ostře ohraničený obor výzkumu, který zahrnuje tradiční strukturované přístupy například k hledání nejkratších cest nebo hraní deskových her, statistické metody učení opírající se o ukázkové vstupy a výstupy („trénovací data“) i moderní hluboké strojové učení.

Hluboké strojové učení

Moderní metody založené na neuronových sítích a využívající velké objemy trénovacích dat a obrovskou výpočetní sílu.

Článek vyšel v tištěném vydání týdeníku Hrot.

automatické překladače věda

Související články

Podcasty & Video

Hrotcast

Trump clem na auta přidusí hlavně Američany, jejich automobilky ale vyhrají. Osud Čechů mají v rukou Němci

Hrot Pavla Štrunce

Někdy se skoro stydím říct, že se živím golfem, říká šampionka Melichová. Za sezonu dá i dva miliony

Hrotcast

Do zbrojení nás tlačil už Obama. Evropa vlastní obranu podcenila, teď musí dluh začít urychleně splácet

Hrot Pavla Štrunce

Dubajská čokoláda, kterou testoval i Babiš. Je to fenomén a nestačíme vyrábět, říká majitel Čokoládovny Janek

Hrotcast

Evropa se pohřbívá sama. Nejde masivně zbrojit i dekarbonizovat současně, příští stanice jsou obrovské dluhy

Hrot Pavla Štrunce

SPM Invest koupila značku pánské módy Feratt. Chceme dopřát mužům top kvalitu, říká manažerka Lauková

Hrotcast

Realiťák Trump a stepní válečník Putin. Amerika už není supervelmoc, Evropu dusí Green Deal, říká Kohout

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Američané se diví, proč by Evropané nechtěli F-35: jsou přece nejlepší

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Na TikToku se množí virtuální žebráci. Vydělávají na nich digitální parazité i samotná platforma

Není zase tak zle, říká expert Liberálního institutu. Češi letos začnou vydělávat „na sebe“ už 2. června

Automatické překladače: Rychlé a přesné, ale vtip nepochopí

Překládá, ale nerozumí

Mluvené slovo a překladač samouk

Učte se jazyky

Související články

DeepL od investorů získal další finance, jeho hodnota tak vzrostla na dvě miliardy dolarů

Překladatel s jedním rohem

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Architekti vykouzlili jeskyni světla. Rodinný dům má sedm výškových úrovni, i když vypadá mnohem menší

Chytré tričko, které bude zachraňovat životy. Vynález z Liberce probudí klimbající řidiče

Testosteron není hračka: Samoléčba může způsobit neplodnost, růst prsou i rakovinu prostaty

Zapomeňte na Lisabon a Algarve. To nejkrásnější Portugalsko leží jinde

Dvě francouzské ministryně čelí žalobě kvůli sebevraždám zdravotníků

Teenager zabil rodiče, aby získal peníze na atentát na Trumpa. Týdny žil v domě s jejich těly

Klesá porodnost, země trpí „pandemií nezadaných“. Mileniálové a generace Z po dětech netouží

Ať zbrojaři taky platí windfall tax, tlačí na vládu opozice

Žádné spojování teologických fakult se nechystá. Vysoké školství potřebuje miliardy, říká rektorka Králíčková

Dopad amerických cel na české zemědělce? Problém je hlavně chaos a zboží z třetích zemí

„V ženě vzniká zázrak stvoření. Muž někdy velmi obtížně hledá svou pozici“

Pomlázka je nástroj k vyjádření lásky

Co nám přinesla tato noc

Žádné spojování teologických fakult se nechystá. Vysoké školství potřebuje miliardy, říká rektorka Králíčková

Dopad amerických cel na české zemědělce? Problém je hlavně chaos a zboží z třetích zemí

Den, kvůli kterému má křesťanství smysl

Seznamzprávy.cz o vyhoštění z USA

Labyrint algoritmů a ráj lidskosti 37/54: Poutník se probouzí z digitálního snu

"Progresivní konzervativec" Lubor Zink: Muž, který dal 17. listopadu světový rozměr – a byl za to zapomenut

Rozhovor s Vladimírem Štěpánem

Po více než sedmi stoletích se katedrála svatého Víta dočká svého symbolického dokončení – právě teď uvnitř roste kolosální lešení pro montáž zbrusu nových varhan

Pražská ZOO rozjíždí Velikonoční program - můžete se těšit na workshopy, krmení, trénink lachtanů a další rodinné aktivity

Obchodní válka mezi Spojenými státy a Čínou může ještě zlevnit čínské zboží vyvážené do Evropy, mohlo by ho tak být ještě víc