Hlavní obsah

Konec těžkopádných asistentů? SoundHound představuje AI, která chápe gesta i řeč současně

3:02
3:02

Poslechněte si tento článek

Společnost SoundHound představila svého nového asistenta Vision AI. Jedná se o novou generaci umělé inteligence (AI), která dokáže nejen rozumět hlasovým pokynům, ale také vidět a analyzovat okolní prostředí v reálném čase. Tato technologie otevírá cestu k přirozenějším interakcím s AI například v maloobchodu, drive-thru nebo při správě inventáře.

Foto: SoundHound AI

Ilustrační obrázek

Článek

Nový systém SoundHound s názvem Vision AI kombinuje zrak se zvukem a vytváří tak mnohem inteligentnější a přirozenější způsob interakce s technologiemi. Cílem je napodobit lidský způsob komunikace – nejen poslouchat, ale také vnímat gesta a zaměření osoby, uvádí web AINews.

Společnost doufá, že přenesením stejného kontextuálního porozumění do umělé inteligence se jí podaří překonat těžkopádné a často frustrující zkušenosti s mnoha dnešními chytrými zařízeními.

Firma se zaměřuje na aplikace v reálném světě, kde by tento kombinovaný smysl mohl znamenat obrovský rozdíl. Ať už je to v autě, v restauraci u pokladny nebo v tovární hale.

„V SoundHound věříme, že budoucnost umělé inteligence není jen víceúčelová. Měla by být naopak hluboce integrovaná, citlivá a vytvořená pro skutečný dopad,“řekl generální ředitel společnosti SoundHound AI Keyvan Mohajer.

„S Vision AI rozšiřujeme své vedoucí postavení v oblasti hlasové a konverzační umělé inteligence, abychom nově definovali způsob, jakým lidé komunikují s produkty a službami nabízenými a využívanými firmami,“ dodal.

Spojení vizuálního rozpoznávání a konverzační inteligence

Vision AI bere živý přenos z kamery a spojuje jej s hlasovou technologií společnosti, která již vyniká schopností porozumět přirozené řeči. Zpracováním toho, co vidí, a toho, co slyší přesně ve stejnou dobu, dokáže systém pochopit skutečný záměr uživatele tak, jak by to jednoduchý hlasový asistent nikdy nedokázal.

Například v obchodě může zaměstnanec díky systému jednoduše nahlédnout na regály a okamžitě získat přehled o stavu zásob. Pro běžné uživatele to může znamenat například drive-thru kiosek, který okamžitě vizuálně potvrdí objednávku, jakmile ji vyslovíme.

Jedním z klíčových technických úkolů při vývoji takového systému je přesná synchronizace zvuku a obrazu. I malé zpoždění by mohlo narušit dojem plynulého a přirozeného rozhovoru.

„S Vision AI spojujeme vizuální rozpoznávání a konverzační inteligenci do jediného synchronizovaného toku. Každý snímek, výpověď a záměr je interpretován v rámci stejného ekosystému,“ vysvětlil viceprezident pro inženýrství ve společnosti SoundHound AI Pranav Singh.

„Jde o inovaci na pomezí inteligence a výkonu, která přináší umělou inteligenci. Ta vidí, co vidíte vy, slyší, co říkáte, a reaguje v daném okamžiku,“ dodal.

Nová vizuální schopnost ale není jedinou novinkou, kterou SoundHound přináší. Firma nedávno posílila i mozek svého systému aktualizací Amelia 7.1. Ta zajišťuje, že její AI agenti pracují rychleji a zároveň dávají podnikům více kontroly i lepší přehled nad jejich činností.

Související témata:

Výběr článků

Načítám