Článek
Pokročilé možnosti analýzy obrazu představily modely o3 a o4-mini společnosti OpenAI, které dokážou ořezávat, otáčet a přibližovat obrázky a získávat z nich vizuální podněty, píše web Vocal Media.
Uživatelé začali s těmito funkcemi experimentovat tak, že na ChatGPT posílali obrázky památek, městských scenérií, nebo dokonce interiérů restaurací, což mu umožnilo určit polohu.
Pouze na základě vizuálních podnětů dokázala umělá inteligence v mnoha případech identifikovat města, konkrétní místa, a dokonce i neznámé podniky. Nepotřebovala k tomu EXIF údaje, které běžně fotografie obsahují – expoziční údaje, datum a čas, GPS souřadnice, rozlišení apod.
Znepokojivý zážitek
Novou funkci poprvé otestoval Simon Willison, tvůrce webového frameworku Django, který na svém blogu podrobně popsal proces uvažování o3 a označil tento zážitek jako surrealistický a znepokojivý, píše web AIbase.
„Analytický proces o3 je ohromující, ale i znepokojivý. Zpočátku předstíral slepotu vůči obrazu, ale rychle se mu vrátil zrak a zaměřil se na rozmazané informace o poznávací značce. Navzdory nečitelnosti značky o3 obrázek zvětšoval a postupně z něj extrahoval klíčové detaily,“ napsal Willison na svém blogu.
„Po téměř sedmi minutách dedukce o3 úspěšně odhadl místo. Zatímco můj první odhad, Cambria, byl o 200 mil nepřesný, další odhad, El Granada, byl naprosto přesný,“ dodal.
V porovnání s jinými modely, jako jsou Claude a Gemini, se zdají být argumentační schopnosti o3 mnohem propracovanější. Willison poznamenal, že jedinečnost o3 spočívá v jeho schopnosti integrovat zpracování obrazu a psaní kódu během myšlenkového procesu, což umožňuje pružnější a přesnější analýzu obrazu.
Zajímavé je, že o3 dokáže nejen analyzovat fotografii a určit její polohu, ale také přímo zjistit zeměpisnou polohu uživatele. Právě i bez údajů EXIF přesně určil polohu na fotografiích pořízených tisíce kilometrů daleko.
WHAT THE HELL
— Kanat Bekt (@kanateven) April 17, 2025
this is a random village in Kazakhstan https://t.co/oaNg2Ue8aB pic.twitter.com/A28z3XEBSW
Analytický přístup
Willison přirovnal schopnosti o3 ke schopnostem zobrazeným v seriálu Kriminálka v Las Vegas a zdůraznil jeho analytický přístup prostřednictvím opakovaného zvětšování a porovnávání.
Výkonné schopnosti o3 však vyvolávají obavy o ochranu soukromí. Snadnost, s jakou nyní umělá inteligence dokáže identifikovat vaši polohu z obyčejné fotografie, vybízí k zamyšlení nad potenciálními riziky sdílení snímků na sociálních sítích.
„Technologie dnes dokáže identifikovat místa z fotografií. Je nesmírně důležité, aby lidé pochopili, jak snadné to je. Pokud máte jakýkoli důvod obávat se o svou bezpečnost, musíte vědět, že jakákoli fotografie, kterou sdílíte, může být použita k identifikaci vaší polohy,“ uzavřel Willison.
The geoguessing power of o3 is a really good sample of its agentic abilities. Between its smart guessing and its ability to zoom into images, to do web searches, and read text, the results can be very freaky.
— Ethan Mollick (@emollick) April 17, 2025
I stripped location info from the photo & prompted “geoguess this” pic.twitter.com/KaQiXHUvYL