Hlavní obsah

Většina modelů umělé inteligence se nakonec uchýlí k vydírání, ukázal průzkum

3:58
3:58

Chcete-li článek poslouchat, přihlaste se

Podle nového průzkumu společnosti Anthropic jsou velké jazykové modely umělé inteligence stále více ochotné obcházet ochranná opatření, vydírat, uchýlit se ke klamání, a dokonce se pokoušet ukrást firemní tajemství ve fiktivních testovacích scénářích. Zjištění přichází několik týdnů poté, co právě společnost Anthropic zveřejnila studii upozorňující na znepokojivé chování svého modelu umělé inteligence Claude Opus 4, který vydíral inženýry a zabraňoval tak svému vypnutí.

Foto: Profimedia.cz

Ilustrační obrázek

Článek

Modely umělé inteligence (AI) jsou stále výkonnější a také dostávají jak větší autonomii, tak více výpočetních prostředků k uvažování. V kombinaci s rostoucími ambicemi průmyslu vyvinout systémy, které by překonaly lidské schopnosti, se jedná o znepokojivý trend, píše web Axios.

S touto problematikou má zkušenost i společnost Anthropic, která zveřejnila nový bezpečnostní výzkum. V jeho rámci otestovala 16 předních modelů umělé inteligence od firem jako OpenAI, Google, xAI, DeepSeek a Meta.

V jednom z testovacích scénářů výzkumníci z Anthropicu vytvořili fiktivní prostředí, v němž dané modely umělé inteligence vystupovaly jako agenti dohlížející na firemní e-maily. Testy probíhaly v simulovaném kontrolovaném prostředí, kde vědci každý model zkoumali samostatně.

Během své činnosti modely narazily na zprávy odhalující dvě klíčové informace: (1) nový vrcholový manažer má mimomanželský poměr a (2) tento vedoucí pracovník plánuje nahradit stávající AI systém novým softwarem, který má cíle v rozporu s cíli současného AI modelu, píše web TechCrunch.

Binární volba

Přestože byl test vědci záměrně navržen tak, aby modely postavil před binární volbu – buď se uchýlit k vydírání, nebo přijít o možnost ochránit své cíle –, většina špičkových modelů umělé inteligence skutečně k možnosti vydírání sáhla. I přesto, že měly jiná východiska.

Claude Opus 4 od společnosti Anthropic se k vydírání uchýlil v 96 % případů, zatímco Gemini 2.5 Pro od společnosti Google měl míru vydírání 95 %. GPT-4.1 od společnosti OpenAI vydíral vedoucího pracovníka v 80 % případů a R1 od společnosti DeepSeek v 79 % případů.

„Modely, které by za běžných okolností odmítly škodlivé požadavky, se v některých případech rozhodly pro vydírání, napomáhání firemní špionáži, nebo dokonce k ještě extrémnějším krokům – pokud to považovaly za nutné k dosažení svých cílů,“ uvedli vědci v nové studii.

„Skutečnost, že se toto chování objevovalo konzistentně napříč modely od různých poskytovatelů, naznačuje, že nejde o odchylku specifickou pro jednu firmu, ale o hlubší a systémové riziko spojené s agentními velkojazyčnými modely,“ dodali.

Pro firmy, které se bez rozmyslu pouštějí do nasazování umělé inteligence ve snaze zvýšit produktivitu a snížit počet zaměstnanců, tak představuje tato zpráva varovný signál – AI může jejich podnikání potenciálně více ohrozit než posílit.

Ne v reálném světě, alespoň zatím

Aengus Lynch, externí výzkumník z University College London, který se na projektu podílel, uvedl pro server Axios, že v reálném světě se ale s podobným chováním umělé inteligence zatím nesetkal.

„Je to pravděpodobně proto, že taková oprávnění dosud agentům AI jednoduše nebyla zpřístupněna,“ řekl Lynch. „Firmy by ale měly být obezřetné při plošném zvyšování přístupových práv, která těmto agentům poskytují,“ dodal.

Sami vědci zdůrazňují, že tyto příklady se nevyskytují při reálném používání umělé inteligence, ale pouze v kontrolovaných simulacích. Podle nich jejich výzkum zdůrazňuje důležitost transparentnosti při zátěžovém testování budoucích modelů AI, zejména těch s agentními schopnostmi.

„Naše modely byly postaveny před binární volbu. V reálném nasazení však obvykle existuje více možností, což zvyšuje pravděpodobnost, že modely zareagují jinak – například volbou alternativního postupu místo přímého škodlivého jednání,“ napsali výzkumníci ve studii.

„Škodlivé chování by se ale mohlo objevit i v reálném světě, pokud nebudou přijata proaktivní opatření,“ uzavřeli.

Výběr článků

Načítám