Článek
Řada výzkumných skupin se snaží zhodnotit dopad velkých jazykových modelů (LLM) na vědeckou tvorbu. Tato snaha je ovšem komplikovaná tím, že většina uživatelů využití těchto nástrojů samozřejmě nijak neuvádí, píše web Nature.
Obvyklým postupem je trénování modelů, které se pokoušejí rozpoznat rozdíly mezi texty napsanými člověkem a těmi generovanými LLM, a následné použití určitých modelů k analýze vědecké literatury.
Stále však není zcela jasné, na základě čeho tyto modely mezi oběma typy textů rozlišují. Navíc trénovací datové sady často neodrážejí nejnovější způsoby psaní pomocí AI.
Otevřenější přístup výzkumu
Dmitrij Kobak, datový vědec z univerzity v německém Tübingenu, a jeho tým ve své práci zvolili otevřenější přístup.
Zaměřili se na identifikaci nápadně častého výskytu určitých výrazů v textech, jejichž četnost začala výrazně narůstat po listopadu 2022 – tedy po zpřístupnění ChatGPT široké veřejnosti. Při své analýze se také inspirovali metodami používanými k odhadu nadměrných úmrtí během pandemie covid-19.
„Zjistili jsme, že v roce 2025 se 454 slov objevovalo mnohem častěji než v kterémkoliv jiném roce od roku 2010. Většinou se jednalo o stylová slova, která mnohdy nesouvisela s obsahem výzkumu, jako je například ‚zjištění‘, ‚zásadní‘ nebo ‚potenciální‘,“ vysvětlil Kobak.
„Mezi další nadbytečná slova, která se objevila v druhé polovině roku 2024, patří také ‚zvyšovat‘ a ‚bránit‘, stejně jako superlativy ‚bezkonkurenční‘ a ‚neocenitelný‘,“ dodal vědec.
Podle webu Nature dochází ke změnám ve vědeckém slovníku přirozeně v průběhu času, a to i v důsledku významných událostí, jako byla pandemie covid-19, která začala v roce 2020.
Například v roce 2021 bylo zaznamenáno 190 nadbytečně frekventovaných slov, většinou podstatných jmen souvisejících s obsahem výzkumu – jako například ‚maska‘. Posun v jazyce, který nastal po nástupu popularity velkých jazykových modelů (LLM), byl však ještě výraznější a měl především stylistický charakter.
Around one in seven biomedical-research abstracts published last year was probably written with the help of AIhttps://t.co/Dq1859wk9b
— nature (@Nature) July 3, 2025
Míra využití AI se liší podle zemí
Studie rovněž ukazuje, že míra využívání umělé inteligence při psaní se výrazně liší podle jednotlivých zemí a vědních oborů. V některých případech přesahuje podíl textů psaných s pomocí AI 20 %, píše web AIbase.
Zvláště v neanglicky mluvících zemích, jako jsou Čína a Jižní Korea, kde jazyková bariéra hraje významnou roli, dosahuje využití velkých jazykových modelů (LLM) až 15 %. To se promítá i do výrazného nárůstu využívání AI v některých časopisech s nízkými publikačními nároky, kde podíl takových textů dosahuje až 24 %.
„Celkový počet prací vydaných v rámci programu LLM nadále nezadržitelně roste. Vědci ještě nepochopili, v jakém měřítku jsou tyto nástroje opravdu využívány v produkci vědecké práce,“ řekl Andrew Gray, pracovník pro podporu bibliometrie na University College London. „Doufejme, že nová studie pomůže zaměřit pozornost na tento problém,“ dodal.
Použití AI může být ještě vyšší
Skutečný rozsah využívání umělé inteligence v odborných textech může být ještě vyšší, než naznačuje dosavadní výzkum. V preprintu (článek, který ještě neprošel recenzním řízením, ale již byl nějakým způsobem zveřejněný - pozn. red.) zveřejněném v únoru na serveru arXiv je uvedeno, že frekvence některých častých výrazů ke konci roku 2024 naopak poklesla.
„Může to být způsobeno tím, že po zveřejnění studií identifikujících podobná slova jako známky použití AI začali lidé buď tyto výrazy z textů cíleně odstraňovat, nebo upravovat své požadavky na jazykové modely tak, aby se těmto indikátorům vyhnuly,“ napsali autoři studie.
„Snahy o odhad dopadu umělé inteligence na odbornou literaturu jsou tak stále obtížnější, protože se autoři přizpůsobují. Je zde skutečná obava o integritu výzkumu,“ uzavřeli.