Článek
Nový systém SoundHound s názvem Vision AI kombinuje zrak se zvukem a vytváří tak mnohem inteligentnější a přirozenější způsob interakce s technologiemi. Cílem je napodobit lidský způsob komunikace – nejen poslouchat, ale také vnímat gesta a zaměření osoby, uvádí web AINews.
Společnost doufá, že přenesením stejného kontextuálního porozumění do umělé inteligence se jí podaří překonat těžkopádné a často frustrující zkušenosti s mnoha dnešními chytrými zařízeními.
Firma se zaměřuje na aplikace v reálném světě, kde by tento kombinovaný smysl mohl znamenat obrovský rozdíl. Ať už je to v autě, v restauraci u pokladny nebo v tovární hale.
„V SoundHound věříme, že budoucnost umělé inteligence není jen víceúčelová. Měla by být naopak hluboce integrovaná, citlivá a vytvořená pro skutečný dopad,“řekl generální ředitel společnosti SoundHound AI Keyvan Mohajer.
„S Vision AI rozšiřujeme své vedoucí postavení v oblasti hlasové a konverzační umělé inteligence, abychom nově definovali způsob, jakým lidé komunikují s produkty a službami nabízenými a využívanými firmami,“ dodal.
NEWS📣: SoundHound Launches Vision AI, Bringing Real-Time Visual Understanding to its Conversational AI Platform 👀
— SoundHound AI (@SoundHound) August 8, 2025
Read more: https://t.co/tUhWrEyOyB pic.twitter.com/4Gn3HrlPqQ
Spojení vizuálního rozpoznávání a konverzační inteligence
Vision AI bere živý přenos z kamery a spojuje jej s hlasovou technologií společnosti, která již vyniká schopností porozumět přirozené řeči. Zpracováním toho, co vidí, a toho, co slyší přesně ve stejnou dobu, dokáže systém pochopit skutečný záměr uživatele tak, jak by to jednoduchý hlasový asistent nikdy nedokázal.
Například v obchodě může zaměstnanec díky systému jednoduše nahlédnout na regály a okamžitě získat přehled o stavu zásob. Pro běžné uživatele to může znamenat například drive-thru kiosek, který okamžitě vizuálně potvrdí objednávku, jakmile ji vyslovíme.
Jedním z klíčových technických úkolů při vývoji takového systému je přesná synchronizace zvuku a obrazu. I malé zpoždění by mohlo narušit dojem plynulého a přirozeného rozhovoru.
„S Vision AI spojujeme vizuální rozpoznávání a konverzační inteligenci do jediného synchronizovaného toku. Každý snímek, výpověď a záměr je interpretován v rámci stejného ekosystému,“ vysvětlil viceprezident pro inženýrství ve společnosti SoundHound AI Pranav Singh.
„Jde o inovaci na pomezí inteligence a výkonu, která přináší umělou inteligenci. Ta vidí, co vidíte vy, slyší, co říkáte, a reaguje v daném okamžiku,“ dodal.
Nová vizuální schopnost ale není jedinou novinkou, kterou SoundHound přináší. Firma nedávno posílila i mozek svého systému aktualizací Amelia 7.1. Ta zajišťuje, že její AI agenti pracují rychleji a zároveň dávají podnikům více kontroly i lepší přehled nad jejich činností.