Článek
Perplexity podle společnosti Cloudflare systematicky získává obsah i z webů, které si výslovně nepřejí být takto navštěvovány, píše web TechCrunch.
Cloudflare v pondělí zveřejnila výsledky svého šetření, podle kterých Perplexity ignoruje nastavené blokace, a zároveň maskuje svou aktivitu tak, aby nebyla snadno odhalena.
Dle výzkumníků se start-up snaží skrýt svou identitu při sběru dat a tím obcházet nastavené preference webových stránek.
Obrovské množství dat
Produkty využívající umělou inteligenci, jako například ty od společnosti Perplexity, jsou závislé na obrovském množství dat získaných z internetu. Mnohé AI start-upy proto dlouhodobě stahují texty, obrázky i videa bez výslovného souhlasu autorů.
V poslední době se proti tomu weby brání pomocí souboru robots.txt, který určuje, jaký obsah smí být indexován – výsledky těchto snah jsou ale bohužel zatím sporné.
Zdá se, že Perplexity tyto bloky obchází tím, že mění tzv. user agenta svých botů i manipulací s tzv. autonomními systémovými čísly (ASN), která určují původ síťového provozu.
„Tuto aktivitu jsme zaznamenali na desítkách tisíc domén a milionech požadavků denně. Pomocí strojového učení a síťové analýzy se nám podařilo identifikovat otisk jejich crawleru (specializovaný internetový bot, který prochází webové stránky za účelem vytvoření obrovské databáze),“ uvádí Cloudflare ve svém blogovém příspěvku.
Marketingový tah
Mluvčí společnosti Perplexity Jesse Dwyer odmítl závěry Cloudflare s tím, že jde pouze o marketingový tah. V e-mailu zaslaném redakci TechCrunch uvedl, že zveřejněné snímky obrazovky neprokazují, že by byl zpřístupněn jakýkoliv obsah. V dalším vyjádření dokonce tvrdil, že bot popsaný v blogovém příspěvku není jejich.
Cloudflare nicméně uvádí, že si podezřelého chování všímá na základě stížností svých zákazníků, podle nichž Perplexity navštěvovala jejich weby navzdory výslovnému zákazu v souboru robots.txt. Následné testování potvrdilo, že start-up tato omezení opravdu obchází.
„Zjistili jsme, že Perplexity kromě svého oficiálně přiznaného robota využívá také běžný prohlížeč maskovaný jako Google Chrome na macOS. Tímto způsobem se údajně snaží obejít blokace, které míří na její deklarovaný crawler,“ dodala společnost Cloudflare.
Není to poprvé
Není to poprvé, co Perplexity čelí obvinění z neoprávněného sběru dat z webových stránek. Loni obvinily některé zpravodajské weby, včetně serveru Wired, společnost Perplexity z plagiátorství jejich obsahu.
Jen pár týdnů poté nedokázal generální ředitel firmy Aravind Srinivas při rozhovoru s novinářem Devinem Coldeweyem z webu TechCrunch na konferenci Disrupt 2024 jasně vysvětlit, jak jeho společnost plagiátorství vlastně definuje.