Hlavní obsah

AI programátoři narazili. Nová výzva ukazuje slabiny umělé inteligence

3:49
3:49

Poslechněte si tento článek

Nová mezinárodní výzva zaměřená na schopnosti umělé inteligence (AI), která řeší reálné programátorské úkoly, přinesla první výsledky a nejsou příliš lichotivé. Ani ty nejpokročilejší modely si často neporadily se zadáními, která zvládne zkušený vývojář během pár minut. Výsledky naznačují, že přestože AI dokáže psát kód, skutečné porozumění problému a udržení kontextu jí stále uniká.

Foto: Profimedia.cz

Ilustrační obrázek

Článek

Nezisková organizace Laude Institute tento týden oznámila prvního vítěze ceny K Prize – vícekolové programátorské soutěže zaměřené na schopnosti umělé inteligence, kterou inicioval Andy Konwinski, spoluzakladatel společností Databricks a Perplexity, píše web TechCrunch.

Vítězem se stal brazilský softwarový inženýr Eduardo Rocha de Andrade, jenž za své úspěchy obdrží odměnu 50 tisíc dolarů (přibližně jeden milion korun). Největším překvapením ale nebylo jeho jméno, nýbrž skóre: jeho naprogramovaný model vyhrál s pouhými 7,5 % správných odpovědí v testu.

„Jsme rádi, že jsme vytvořili srovnávací test, který je skutečně těžký. Benchmarky by měly být tvrdé, pokud mají mít nějaký význam,“ řekl Konwinski.

„Skóre by bylo jiné, kdyby se velké laboratoře přihlásily se svými největšími modely. Ale o to tak trochu jde. K Prize běží offline s omezenými výpočty, takže upřednostňuje menší a otevřené modely. To se mi líbí. Vyrovnává to podmínky,“ dodal.

Konwinski také přislíbil jeden milion dolarů (20,8 milionu korun) prvnímu open source modelu, který v testu dosáhne více než 90 %.

Testování schopností AI modelů

Soutěž K Prize testuje schopnosti AI modelů podobně jako známý benchmark (standard, se kterým se porovnávají výsledky jiných procesů, metod, produktů nebo služeb) SWE-Bench. Hodnotí je podle toho, jak si poradí s reálnými programátorskými problémy z vývojářské platformy GitHub.

Na rozdíl od SWE-Benchu, který pracuje s pevně danou a veřejně známou sadou úloh (na níž se mohou modely nepřímo připravit), se K Prize snaží o čistší přístup. Používá systém, kde se testovací úlohy vybírají až po uzávěrce pro odevzdání modelů. Díky tomu je zajištěno, že modely nebyly trénovány na konkrétních testových datech.

Nejlepší výsledek 7,5 % ve zmíněné výzvě ostře kontrastuje s výsledky SWE-Benchu, kde špičkové modely dosahují až 75 % úspěšnosti v jednodušší verzi „Verified“ a 34 % ve složitější „Full“.

Podle zakladatele soutěže Andyho Konwinského není zatím jasné, zda za tímto rozdílem stojí znečištění testovacích dat SWE-Benchu, nebo vyšší náročnost úloh z GitHubu, které K Prize využívá.

„Jakmile budeme mít víc kol a nových výsledků, získáme jasnější obrázek,“ uvedl Konwinski pro TechCrunch. „Očekáváme, že se soutěžící budou každých pár měsíců lépe přizpůsobovat a celý obor se tím posune dál,“ dodal.

Spravedlivější hodnocení umělé inteligence

Na první pohled může působit zvláštně, proč někdo pořádá novou AI kódovací soutěž, když už existuje tolik nástrojů a benchmarků. Jenže právě kvůli tomu, že se z některých testů staly příliš snadné standardy, považuje řada expertů nové iniciativy, jako je K Prize, za nutný krok ke spravedlivějšímu hodnocení schopností umělé inteligence.

„Jsem rozhodně pro, abychom vytvářeli nové verze známých testů. Bez takových pokusů nezjistíme, jestli jsou výsledky modelů zkreslené předchozím tréninkem, nebo tím, že se jen snaží zaměřit na konkrétní testy jako SWE-Bench,“ řekl výzkumník z Princetonu Sayash Kapoor, který se tématu věnoval i ve svých studiích.

Pro Konwinského nejde jen o lepší benchmark. K Prize vnímá jako výzvu pro celé AI odvětví. „Podle všeho bychom už teď měli mít doktory, právníky i vývojáře poháněné umělou inteligencí. Ale to není realita. Když nedokážeme ani bez znečištěných dat dosáhnout přes 10 % správných odpovědí, je to pro mě jasné vystřízlivění,“ uzavřel.

Výběr článků

Načítám