Hlavní obsah

Co dokáže evropský strojový překladač Euromatrix? Otestují ho na Novinkách.cz

Právo, Petr Kotek

Tlačítkem Sledovat můžete odebírat oblíbené autory a témata. Články najdete v sekci Moje sledované a také vám pošleme upozornění do emailu.

Praha

Profesionální překladatelé přeložili do pěti jazyků 12 500 vybraných vět z článků nejznámějších zpravodajských serverů a deníků. Jako vzorek angličtiny posloužila BBC, francouzštinu zastupuje Le Monde, Němčinu Der Spiegel a češtinu také Novinky.cz. Co se stane, když stejné texty projdou strojovým překladem?

Článek

Odpověď na tuto otázku by měl dát celosvětový testovací maraton, který 1. března startuje na Univerzitě Karlově v Praze. Své kvality poměří například nejznámější překladač Google s novým překladačem EU – Euromatrixem. Právě Euromatrix by mohl v budoucnu ušetřit Evropské unii stamilióny EUR.

„Porovnání lidského překladu se strojovým určí, jak moc se lze na strojové překladače spolehnout a který z nich je nejvhodnější pro jednotlivé jazykové kombinace,“ vysvětluje David Matuška ze společnosti CEET.

Evropský projekt mají vyhodnotit Češi

Právě českou překladatelskou agenturu CEET pověřila Evropská unie vyhodnocením tohoto projektu. „Strojový překlad ve spojení s překlady podporovanými počítačem a následnou lidskou korekturou je budoucností překladatelského oboru. Je nezbytné být u vývoje a výzkumu těchto technologií,“ vysvětluje Matuška, proč se CEET rozhodl do projektu Evropské unie a do vývoje nového překladače investovat.

Angličtina a čínština jsou pro stroje hračkou

Evropské jazyky dělají překvapivě strojům mnohem větší problémy než například překlady mezi angličtinou a čínštinou. „Znaky jsou sice zcela jiné, ale tvaroslovně a slovosledně jsou si tyhle jazyky podobnější. Překlady z a do češtiny výrazně komplikuje zejména skloňování a časování,“ upozorňuje Ondřej Bojar z Matematicko-fyzikální fakulty UK. Právě proto je čeština jedním z jazyků, na nichž se překladače prověřují.

Od 1. do 5. března budou počítače překládat testovací články z evropských novin a pak se bude hodnotit. „Jsme zvědaví, jak obstojí právě Euromatrix,“ uzavírá Matuška. „Na rozdíl od Googlu a dalších překladačů, které pracují pouze s četností výskytu slov, přidává totiž Euromatrix navíc ještě gramatiku.“

Z fondů i ze svého

Finančně podporuje vývoj Euromatrixu Evropská unie. Počítá totiž s tím, že jeho používání může jen v oblasti překladů nejrůznějších směrnic, smluv a úředních dokladů přinést výrazné úspory.

Celkově bude projekt Euromatrix Plus stát zhruba pět miliónů eur, z toho 3,8 miliónu přispěje Evropská unie. Zhruba 1,1 miliónu jde z rozpočtu výzkumných institucí, resp. z národních dotačních programů, a zhruba 60 000 eur investuje z vlastních zdrojů společnost CEET.

Investice do projektu Euromatrix Plus by se tak měla vrátit již po prvním roce aktivního používání.

Harmonogram testování kvality překladů
1. - 5. 3. 2010 - přihlášení účastníci, instituce, ale i nadšenci, nechají přeložit vybraný text svými softwary. V Praze je to Ústav formální a aplikované lingvistiky MFF UK Praha, která se podílí i na vývoji Euromatrixu. K dalším přihlášeným patří kromě Googlu např. Systran či Moses.
březen 2010 - hotové strojové překlady zpracuje Univerzita v Edinburghu. Zde projdou speciálním počítačovým programem, který zhodnotí a porovná přesnost jednotlivých překladů na základě podobnosti s lidským překladem.
březen – červenec 2010 - lidské vyhodnocení (Univerzita John Hopkins, USA). Odborníci budou porovnávat vždy na stejném textu lidský překlad a s ním několik strojových. Subjektivně vyhodnotí, který z nich je přesnější a lepší. Objektivní náhled zajistí počet těchto výstupů. Na kontrole pracuje souběžně několik desítek lidí.
červenec 2010 - kompletní výsledky testování zpracuje a vyhodnotí CEET a vyhlásí na Konferenci Asociace pro počítačovou lingvistiku (Uppsala, Švédsko).

Anketa

Používáte současné strojové překladače?
Ano
62 %
Ne, jazyky ovládám lépe než počítač
38 %
HLASOVÁNÍ SKONČILO: Celkem hlasovalo 758 čtenářů.

Co je to Euromatrix a jak funguje

Většina strojových překladačů, včetně Googlu, pracuje výhradně na základě statistického modelu, kdy se do něj denně vkládají tisíce slov. On pak vyhodnocuje četnost a podle toho „překládá“. Bohužel jen 2–3 % takovýchto překladů jsou stoprocentně kvalitní. Euromatrix je ale hybridním modelem překladače, ke statistice přidává lingvistiku, a tím se kvalitativně dostává o několik kategorií výše.

Reklama

Související témata:

Výběr článků

Načítám