Hlavní obsah

Tisíce vědeckých článků nesou stopy AI. Autoři je začínají maskovat

4:30
4:30

Poslechněte si tento článek

Využívání umělé inteligence (AI) v akademickém prostředí se v poslední době stává stále populárnější, zejména v biomedicínské oblasti. Jak ukazuje nedávná studie zveřejněná v časopise Nature, zhruba 200 000 z 1,5 milionu biomedicínských příspěvků publikovaných v databázi PubMed v roce 2024 vykazuje znaky textu generovaného pomocí AI. Jinými slovy, přibližně každý sedmý v této oblasti nese stopy využití umělé inteligence.

Foto: Profimedia.cz

Ilustrační obrázek

Článek

Řada výzkumných skupin se snaží zhodnotit dopad velkých jazykových modelů (LLM) na vědeckou tvorbu. Tato snaha je ovšem komplikovaná tím, že většina uživatelů využití těchto nástrojů samozřejmě nijak neuvádí, píše web Nature.

Obvyklým postupem je trénování modelů, které se pokoušejí rozpoznat rozdíly mezi texty napsanými člověkem a těmi generovanými LLM, a následné použití určitých modelů k analýze vědecké literatury.

Stále však není zcela jasné, na základě čeho tyto modely mezi oběma typy textů rozlišují. Navíc trénovací datové sady často neodrážejí nejnovější způsoby psaní pomocí AI.

Otevřenější přístup výzkumu

Dmitrij Kobak, datový vědec z univerzity v německém Tübingenu, a jeho tým ve své práci zvolili otevřenější přístup.

Zaměřili se na identifikaci nápadně častého výskytu určitých výrazů v textech, jejichž četnost začala výrazně narůstat po listopadu 2022 – tedy po zpřístupnění ChatGPT široké veřejnosti. Při své analýze se také inspirovali metodami používanými k odhadu nadměrných úmrtí během pandemie covid-19.

„Zjistili jsme, že v roce 2025 se 454 slov objevovalo mnohem častěji než v kterémkoliv jiném roce od roku 2010. Většinou se jednalo o stylová slova, která mnohdy nesouvisela s obsahem výzkumu, jako je například ‚zjištění‘, ‚zásadní‘ nebo ‚potenciální‘,“ vysvětlil Kobak.

„Mezi další nadbytečná slova, která se objevila v druhé polovině roku 2024, patří také ‚zvyšovat‘ a ‚bránit‘, stejně jako superlativy ‚bezkonkurenční‘ a ‚neocenitelný‘,“ dodal vědec.

Podle webu Nature dochází ke změnám ve vědeckém slovníku přirozeně v průběhu času, a to i v důsledku významných událostí, jako byla pandemie covid-19, která začala v roce 2020.

Například v roce 2021 bylo zaznamenáno 190 nadbytečně frekventovaných slov, většinou podstatných jmen souvisejících s obsahem výzkumu – jako například ‚maska‘. Posun v jazyce, který nastal po nástupu popularity velkých jazykových modelů (LLM), byl však ještě výraznější a měl především stylistický charakter.

Míra využití AI se liší podle zemí

Studie rovněž ukazuje, že míra využívání umělé inteligence při psaní se výrazně liší podle jednotlivých zemí a vědních oborů. V některých případech přesahuje podíl textů psaných s pomocí AI 20 %, píše web AIbase.

Zvláště v neanglicky mluvících zemích, jako jsou Čína a Jižní Korea, kde jazyková bariéra hraje významnou roli, dosahuje využití velkých jazykových modelů (LLM) až 15 %. To se promítá i do výrazného nárůstu využívání AI v některých časopisech s nízkými publikačními nároky, kde podíl takových textů dosahuje až 24 %.

„Celkový počet prací vydaných v rámci programu LLM nadále nezadržitelně roste. Vědci ještě nepochopili, v jakém měřítku jsou tyto nástroje opravdu využívány v produkci vědecké práce,“ řekl Andrew Gray, pracovník pro podporu bibliometrie na University College London. „Doufejme, že nová studie pomůže zaměřit pozornost na tento problém,“ dodal.

Použití AI může být ještě vyšší

Skutečný rozsah využívání umělé inteligence v odborných textech může být ještě vyšší, než naznačuje dosavadní výzkum. V preprintu (článek, který ještě neprošel recenzním řízením, ale již byl nějakým způsobem zveřejněný - pozn. red.) zveřejněném v únoru na serveru arXiv je uvedeno, že frekvence některých častých výrazů ke konci roku 2024 naopak poklesla.

„Může to být způsobeno tím, že po zveřejnění studií identifikujících podobná slova jako známky použití AI začali lidé buď tyto výrazy z textů cíleně odstraňovat, nebo upravovat své požadavky na jazykové modely tak, aby se těmto indikátorům vyhnuly,“ napsali autoři studie.

„Snahy o odhad dopadu umělé inteligence na odbornou literaturu jsou tak stále obtížnější, protože se autoři přizpůsobují. Je zde skutečná obava o integritu výzkumu,“ uzavřeli.

Výběr článků

Načítám