Hlavní obsah

Sbírali data, i když neměli. Perplexity čelí dalšímu skandálu

3:07
3:07

Poslechněte si tento článek

Společnost Perplexity, která vyvíjí populární AI vyhledávač, čelí závažným obviněním. Podle zjištění společnosti Cloudflare měla neoprávněně získávat obsah z webových stránek, které výslovně zakázaly přístup umělé inteligenci prostřednictvím souboru robots.txt. Není to přitom první skandál, se kterým se Perplexity potýká.

Foto: Profimedia.cz

Ilustrační obrázek

Článek

Perplexity podle společnosti Cloudflare systematicky získává obsah i z webů, které si výslovně nepřejí být takto navštěvovány, píše web TechCrunch.

Cloudflare v pondělí zveřejnila výsledky svého šetření, podle kterých Perplexity ignoruje nastavené blokace, a zároveň maskuje svou aktivitu tak, aby nebyla snadno odhalena.

Dle výzkumníků se start-up snaží skrýt svou identitu při sběru dat a tím obcházet nastavené preference webových stránek.

Obrovské množství dat

Produkty využívající umělou inteligenci, jako například ty od společnosti Perplexity, jsou závislé na obrovském množství dat získaných z internetu. Mnohé AI start-upy proto dlouhodobě stahují texty, obrázky i videa bez výslovného souhlasu autorů.

V poslední době se proti tomu weby brání pomocí souboru robots.txt, který určuje, jaký obsah smí být indexován – výsledky těchto snah jsou ale bohužel zatím sporné.

Zdá se, že Perplexity tyto bloky obchází tím, že mění tzv. user agenta svých botů i manipulací s tzv. autonomními systémovými čísly (ASN), která určují původ síťového provozu.

„Tuto aktivitu jsme zaznamenali na desítkách tisíc domén a milionech požadavků denně. Pomocí strojového učení a síťové analýzy se nám podařilo identifikovat otisk jejich crawleru (specializovaný internetový bot, který prochází webové stránky za účelem vytvoření obrovské databáze),“ uvádí Cloudflare ve svém blogovém příspěvku.

Marketingový tah

Mluvčí společnosti Perplexity Jesse Dwyer odmítl závěry Cloudflare s tím, že jde pouze o marketingový tah. V e-mailu zaslaném redakci TechCrunch uvedl, že zveřejněné snímky obrazovky neprokazují, že by byl zpřístupněn jakýkoliv obsah. V dalším vyjádření dokonce tvrdil, že bot popsaný v blogovém příspěvku není jejich.

Cloudflare nicméně uvádí, že si podezřelého chování všímá na základě stížností svých zákazníků, podle nichž Perplexity navštěvovala jejich weby navzdory výslovnému zákazu v souboru robots.txt. Následné testování potvrdilo, že start-up tato omezení opravdu obchází.

„Zjistili jsme, že Perplexity kromě svého oficiálně přiznaného robota využívá také běžný prohlížeč maskovaný jako Google Chrome na macOS. Tímto způsobem se údajně snaží obejít blokace, které míří na její deklarovaný crawler,“ dodala společnost Cloudflare.

Není to poprvé

Není to poprvé, co Perplexity čelí obvinění z neoprávněného sběru dat z webových stránek. Loni obvinily některé zpravodajské weby, včetně serveru Wired, společnost Perplexity z plagiátorství jejich obsahu.

Jen pár týdnů poté nedokázal generální ředitel firmy Aravind Srinivas při rozhovoru s novinářem Devinem Coldeweyem z webu TechCrunch na konferenci Disrupt 2024 jasně vysvětlit, jak jeho společnost plagiátorství vlastně definuje.

Související témata:

Výběr článků

Načítám