I my jsme možná jen stroje, říká matematický lingvista Ondřej Bojar

Článek

Co to znamená, že se strojový systém trénuje? Také dnes říkáme, že stroje budou mít univerzální schopnost se učit. Co si pod tím představit?

To druhé se týká obecné umělé inteligence. Tam ještě zdaleka nejsme.

Před několika lety nastala podstatná změna, jež spočívala ve významném rozšíření schopnosti počítačů učit se vzorce, zákonitosti, pravidelnosti. Teprve nedávno se ale podařilo sebrat a zpracovat natolik velké množství dat, že ten systém začal fungovat.

Dnes počítači předložíme velkou množinu trénovacích příkladů, definujeme mu vstupy i očekávané výstupy a vytvoříme nějaký model. Ten rozhodne, prostřednictvím jakého výpočtu se dostat k žádanému výstupu. Figuruje v tom ale velký počet volných proměnných, čísel, jejichž přesné hodnoty si počítač najde sám.

Klasicky bychom výpočet třeba pro systém strojového překládání naprogramovali sami: když má věta na konci otazník, tušíme, kde v ní hledat sloveso, a podobně. Nyní postupujeme jinak: jenom přidáváme drátky do neuronové sítě, vytváříme komunikační kanály. Určíme síti, kam se může v danou chvíli podívat, ale zda tak skutečně učiní, už je výsledkem automatického trénování. Čili já jako autor systému zadám hrubou kostru výpočtu, ale jaký kanál přesně stroj pro výpočet zvolí, je na něm.

Neuronovou síť nejdřív nastavím úplně náhodně, pak jí dávám příklady, ona provede výpočet, převede vstup na výstup, výstup dopadne špatně, a tak si sama upraví vnitřní parametry – a tohle se pořád opakuje. Trvá to dlouho a dělá se to na hodně rychlých výpočetních strojích.

Pokud to celé inicializujete nějak nešťastně, systém se zblázní a nenaučí se nic. Pokud to ale uděláte správně, najednou se začne chovat tak, že na dané úloze simuluje chování člověka.

Když je tou úlohou zrovna strojový překlad, zadám zdrojovou i očekávanou cílovou větu, k níž se pak systém snaží dopracovat. Když je tou úlohou řídit auto, na vstupu zadám popis nějaké dopravní situace a na výstupu, jestli se má šlapat na brzdu, na plyn nebo přeřadit.

Ve finále stroj umí dobře zareagovat v analogických situacích. Neumí ale extrapolovat, vystoupit mimo situace samotné. Nelze mluvit o nějakém hlubším porozumění věcem.

Můžeme tedy říct, že trénujete systém tak, aby kopíroval lidské rysy, aby se po nich opičil?

Ano, opičit je přesné slovo.

Co se aktuálně umí a neumí ve strojovém překládání?

Jednoduchou odpověď dát nelze. Všechno záleží na dostupnosti trénovacích textů z konkrétní oblasti, ve které chceme strojový překlad nasadit. Když je oblast jasně vymezená, snáze k ní získáme dostatečné množství materiálu, na němž lze systém vytrénovat. V takových podmínkách dosahujeme lidské kvality. Ale vezměte si třeba překlad novinových článků: škála možných témat je velmi široká a všechna data získat prostě nejde. Lidské kvality proto dosahujeme složitěji, byť i u novin se nám to už dnes, v průměru a hodnoceno po izolovaných větách, daří. Když ale systém strojového překladu nasadíte v jiné oblasti, než na kterou byl vytrénován, přestává fungovat.

Jaká je situace ve strojovém tlumočení?

Strojové tlumočení dneska reálně neexistuje. Dělá se pouze strojový překlad mluvené řeči. Mluvenou řeč ale napřed musíte přesně rozpoznat, což je problém. Za účelem rozpoznání mluvené řeči není výhodné trénovat mnoho systémů na úzkou oblast, jako to děláme u řeči psané. Lepší by bylo mít jeden systém, který by trénoval na všech oblastech dohromady. Získal by tak vyšší výkonnost, robustnost, zafungoval by i při změně okolností, jako jsou téma, přízvuk, šum. Obecně lze říci, že v kvantitě se skrývá kvalita, a taky, že v šíři trénovacích dat se skrývá robustnost systému.

Systémy strojového překladu v současné době trénují na psané řeči, třeba na textech evropského práva a podobně. Mluvená řeč ale přepsaná vypadá úplně jinak než řeč psaná. Když na ni nasadíte strojový překlad, nebude to fungovat dobře.

Aby mohla neuronová síť tlumočit, potřebovali bychom jí zadat zvuk výchozí řeči jako vstup a zvuk cílové řeči jako výstup. Kdyby se podařilo takovou architekturu navrhnout a kdybychom přišli na to, jak ji spustit, aby bylo trénování stabilní, teoreticky by systém strojově tlumočit mohl. Začal by dělat všechny věci, které tlumočníci považují za samozřejmé: upravovat rychlost řeči, tón hlasu, všechny neverbální aspekty sdělení.

Na to však zatím neaspirujeme. My máme systém na rozpoznávání slov v řeči a pak komponentu, která hádá, kam dát čárky a tečky. Lidé ale nemluví ve větách, takže systém je pořád krok vedle od reálné situace. Když uhodne věty, vypustí na ně strojový překlad. Každou větu ale bere izolovaně a nezohledňuje celek projevu. Nerespektuje třeba, že mluvčí v kontextu řeči něco vypíchne nebo zdůrazní.

Taky je těžké zachytit, že třeba jedno slovo ve dvou intonacích může přenášet velmi odlišný význam, a zjistit, jak rozuměl posluchač. Uživatelské hledisko zatím nezohledňujeme, i když by to tak mělo být.

Jaké jsou cíle projektu European Live Translator, na kterém pracujete?

Máme za úkol umožnit strojově překládat mluvenou řeč z několika vstupních jazyků do mnoha výstupních. V praxi to znamená, že vyvineme podpůrný titulkovací nástroj pro potřeby mnohojazyčných konferencí.

Dejme tomu, že zasedá Evropská organizace nejvyšších kontrolních institucí, se kterou spolupracujeme. Na její pravidelnou konferenci přijíždějí delegáti z mnoha zemí, dohromady mluví 43 různými jazyky. Konference má šest jednacích jazyků, ze kterých a do kterých se tlumočí. Ne všichni delegáti se ale cítí dostatečně jistě v jednom z těch šesti jazyků, a právě jim bude náš nástroj určen: k jednacímu jazyku, který je jim nejbližší, jim poběží titulky v jejich mateřštině, byť nepřesné.

Dále chceme umět automaticky překládat komunikaci třeba po telefonní online platformě. Dejme tomu, že si telefonujete s Němcem a mluvíte pouze česky. Komunikaci zprostředkujeme tak, že vaši češtinu převedeme do německých titulků a jeho němčinu do českých.

Posledním cílem projektu je automatická sumarizace, tedy pořizování zápisu z jednání. Neaspirujeme na to, aby stroj třídil informace podle důležitosti, půjde pouze o zkrácení, odstranění duplicity a podobně.

V tlumočení je důležitá, ne-li určující, neverbální komunikace. Pracujete nějak s touto dimenzí? Je stroj schopen kodifikovat alespoň některé neverbální rysy?

Záleží na trénovacích datech. Prozatím máme k dispozici zvukový záznam vstupního sdělení a potom výstup tlumočníka. Akusticky v nich neverbálno obsaženo je, opticky ne, na to bychom potřebovali ještě i videozáznam.

Jakmile je informace zachycena v trénovacích datech, stačí připravit správnou architekturu sítě, nechat systém dostatečně dlouho trénovat na rychlých počítačích, a ta informace bude přístupná. Síť si ji v datech dokáže sama najít, pokud tam je zaznamenána dostatečně často.

S příslušnými finančními prostředky bychom mohli lidi v rozhovorech zabírat několika kamerami, pořídit 3D záznam – a síť se pak na něm naučí simulovat neverbální informace.

Myslíte, že takhle bude jednou možné odsimulovat celého člověka?

Jsou lidé, kteří na sobě už dnes nosí videokameru a možná i další senzory. Kamera neustále běží a snímá informace. Až se zruší GDPR a ti lidé zveřejní, co zažili, na jejich záznamu budou moci začít trénovat neuronové sítě. Když těch lidí bude milion, přestane být problém, aby neuronová síť zažila stejnou reakci jako člověk. Budete mít záznamy všech možných situací, třeba jak vám sousedka nadává, že jste ušpinila chodbu, a jak rychlý byl při tom váš tep. Pak bude triviální neuronovou síť natrénovat na lidské chování. Lidský prožitek je podle mě plně simulovatelný, jenom vám to tak nepřipadá, protože tu simulaci neprožijete. A stroj je prostě filtr, konverze. Co mu zadáte, po tom se naučí opičit.

Takže ani u toho překládání nevidíte nic bytostně lidského, co se stroj naučit nedokáže? Něco, v čem by stroj na lidského překladatele ani potenciálně neměl?

Nevidím. Ten člověk má za sebou celý svůj život, stroj zatím ne. Ale až stroji zprostředkujeme záznam života, bude to stejné. Vím, o čem mluvíte; něco jako intelekt? Mám dojem, že hodně lidí tohle nepoužívá. Bohužel si myslím, že my lidé jsme podobné průtokové filtry jako ty neuronové sítě.

Jsme jimi, nebo se jimi stáváme, protože některé naše schopnosti ochabují?

Jsme jimi. Až budeme mít roboty, kteří s námi vychodí školu, budou s námi navštěvovat kroužky a hrát si na hřišti, zažijí naše spory se spolužáky a všechno ostatní, až zmapujeme všechna spektra, až budou mít stroje kůži a budou vnímat teplo, vánek, vůně, tak budou schopny dělat přesně to, co my.

Navíc ani já sám nedokážu s jistotou poznat, jestli jsem robot, nebo se chovám lidsky, nadroboticky. Nemůžu sám sobě pyšně přisuzovat nějaké vyšší schopnosti, než má stroj. To, co jsem zatím u sebe vypozoroval, je všechno strojově odsimulovatelné. Je to těžká úloha, ale když budu mít dostatek trénovacích dat, půjde to.

Základní princip strojového učení, ten model neuronové sítě, který známe už od padesátých let a který začal fungovat s velikými daty, bude časem na to opičení úplně stačit. Potřebujeme jen data a výkon, protože lidé jsou neuvěřitelně rychlé výpočetní stroje. Mozek je pomalý, ale vysoce paralelní, v tom tkví jeho výpočetní síla. Když dnešní počítače zrychlíme, aby odsimulovaly mozek, půjde to.

Já na ducha mimo hmotu nevěřím. Vědomí je podle mě jenom pozorování vlastního procesu myšlení s nějakým zpožděním. Představme si mozek jako hustou propojenou síť počítačů, které se navzájem pozorují. Vědomí je to, že určitá část počítačů kouká na výpočet, který běží jinde. Jakmile se na něj podívají, vše se zase překlopí, vědomí uskočí a přenese se jinam.

Odpověď na to, kde jsem já ve vlastní hlavě, je strašně plovoucí, neuchopitelná. Moje já v mozku běhá a je na neuronech, které v tu chvíli nemohou vnímat samy sebe. Výsledkem téhle úvahy je, že já sám se vlastně neznám a nemohu se přímo zažít. Vidím se přece vždycky s nějakým zpožděním.

Ital Cosimo Accoto, který se zabývá digitalizací z filosofického hlediska, říká, že je žádoucí, aby lidé přetvořili pojem vlastní identity tak, aby byl pro stroj čitelný a uchopitelný. Myslíte si, že se něco takového se už děje?

Ano, to se děje! Ale stroje za to nemohou, můžeme si za to sami. Hned mě samozřejmě napadají sociální sítě – a lidská snaha dosáhnout měřitelného uznání. Tvarujeme komunikaci na síti tak, abychom tam co nejvíce zazářili. Stroj nás takové jen zaznamenává. Děje se toho teď skutečně hodně. Ta otázka by spíš byla, nakolik ze své „lidskosti“ slevujeme tím, že komunikujeme zprostředkovaně namísto fyzické přítomnosti. Netroufám si na to odpovědět, ale jde o úplně jiný styl komunikace, který mění charakter naší osobnosti. Ta osobnost, co reálně žije, je na hony vzdálená té, co znají mí fanoušci ze sociální sítě – a která „komunikuje“.

Klademe si stále otázky, co stroj dokáže nebo nedokáže. Stálo by za to tu otázku posunout a ptát se, co by dělat měl a neměl?

Já jsem povahou výzkumník a budu nejspokojenější, když si dovolíme prozkoumat všechno. Na preskripci, co je nezákonné nebo nevhodné, zatím nemáme v oboru umělé inteligence dostatek podkladů. I to je ale důvod, proč k tomuto dosud velmi technickému oboru maximálním způsobem lákám vědce společenské, humanitní. Vliv umělé inteligence na nás a naši společnost je mimořádně důležité téma pro sociology, právníky i psychology.

Osobně bych nicméně restrikce dělal až poté, co nastanou problémy.

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah