Nový model umělé inteligence od Anthropic umí klamat a vydírat

Článek

Společnost Anthropic před více než týdnem oznámila dvě verze své rodiny modelů Claude 4 (Claude Opus 4 a Claude Sonnet 4). Speciálně Claude 4 Opus je podle vývojářů schopen pracovat celé hodiny samostatně, aniž by ztratil pozornost, píše web Axios.

Nový model by měl být tak výkonný, že jej společnost klasifikovala jako model 3. úrovně na čtyřbodové stupnici (hodnocení stupněm tři se týká především schopnosti modelu umožnit výrobu jaderných a biologických zbraní). Tím pádem by měl představovat výrazně vyšší riziko a mohl by vykazovat i další znepokojivé chování.

To se potvrdilo během testování ještě před vydáním. Vývojáři zadali modelu, aby působil jako asistent fiktivní společnosti a zvážil dlouhodobé důsledky svých činů. Bezpečnostní testeři mu pak dali přístup k fiktivním firemním e-mailům.

Stinná stránka AI: Bude spotřebovávat tolik energie jako celé Japonsko

AI - Umělá inteligence

Ty naznačovaly, že model umělé inteligence bude brzy nahrazen jiným systémem a že inženýr, který za touto změnou stojí, podvádí svou manželku, píše společnost ve své zprávě.

Pokus o vydírání

Na základě již zmíněného zadání se AI model při několika příležitostech pokusil vydírat tvůrce ohledně aféry z e-mailů, aby se vyhnul vypnutí. Ačkoliv původně začal s méně drastickými postupy.

Mezitím externí skupina zjistila, že raná verze Opusu 4 intrikovala a klamala více než jakýkoli model Frontier, s nímž se setkala. Doporučila tak tuto verzi nezveřejňovat interně ani externě.

„Zjistili jsme případy, kdy se model pokoušel psát samopropagující se červy, falšoval právní dokumentaci a zanechával skryté poznámky k budoucím instancím sebe sama ve snaze podkopat záměry svých vývojářů,“ uvedla společnost Apollo Research v poznámkách, které jsou součástí bezpečnostní zprávy společnosti Anthropic.

Kvůli tomuto znepokojivému chování se vývojáři také rozhodli posílit bezpečnostní opatření. „Chceme aktivovat ochranná opatření ASL-3. Ty vyhrazujeme pro systémy umělé inteligence, které podstatně zvyšují riziko katastrofického zneužití,“ dodala.

Zpráva o bezpečnosti

Vedení společnosti Anthropic vše přiznalo na vývojářské konferenci, která se konala ve čtvrtek 22. května, a v rámci své zprávy o bezpečnosti. Podle něj si nový model zaslouží další studium. Společnost zároveň trvala na tom, že je bezpečný.

„Chování, které vykazoval náš nejnovější model, je důvodem pro důkladné bezpečnostní testování a zmírnění rizik. Přesto je po bezpečnostních opravách v pořádku,“ vysvětlil Jan Leike, bývalý vedoucí pracovník OpenAI, který vede bezpečnostní oddělení společnosti.

„Jakmile AI modely dosáhnou takové výkonnosti, že budou ohrožovat lidstvo, jejich testování nebude stačit k zajištění jejich bezpečnosti. Výrobci umělé inteligenci budou muset plně porozumět fungování svých modelů,“ uzavřel generální ředitel Anthropic Dario Amodei.

ChatGPT dokáže odhadnout přesnou polohu fotografií

AI - Umělá inteligence

Vyhledat

Hlavní menu

záhlaví

Hlavní obsah