Hlavní obsah

Umělá inteligence rozumí vašim emocím. Hume AI vydal nový hlasový model

3:05
3:05

Poslechněte si tento článek

Nový model hlasové interakce EVI 3 od společnosti Hume AI si získal značnou pozornost v oboru díky svým vynikajícím schopnostem porozumět emocím a možnosti personalizovat zážitek z interakce. Model dokáže přesně rozpoznat emoce v řeči uživatele, generovat specifické styly a osobnosti na základě preferencí uživatele. To představuje významný průlom v oblasti emoční interakce a přirozené komunikace pro hlasovou umělou inteligenci (AI).

Foto: screenshot Hume AI

Umělá inteligence Hume AI a její hlasový model EVI 3

Článek

EVI 3 (Empathic Voice Interface 3) vyvinula společnost Hume AI jako hlasový jazykový model třetí generace na základě multimodálních datových souborů. Ty integrují přepisy řeči, uvažování a hlasovou syntézu, píše web AIbase.

Oproti svým předchůdcům by měl nový model udělat kvalitativní skok v porozumění emocím, přirozenosti hlasového projevu a personalizovaném přizpůsobení.

Podobně jako hlasový režim ChatGPT je i EVI 3 vybaven sortimentem předprogramovaných hlasů umělé inteligence. Ty jsou seřazeny podle osobnosti a popisu postavy, včetně starého komika, životního kouče, moudrého čaroděje, pána podzemí nebo filozofa 18. století Davida Huma.

Model by měl tak generovat zcela nové hlasy a nastavení osobnosti během méně než jedné sekundy na základě jednoduchých textových podnětů od uživatelů, podporovat více než 30 komplexních hlasových stylů a dodat umělé inteligenci jedinečnost osobnosti nebo emoce.

Namísto toho, aby uživatelé museli upravovat dlouhý seznam konkrétních atributů, jako je tomu například při vytváření Bitmoji nebo postavy ve videohře, tak stačí jednoduše popsat vlastnosti požadovaného hlasu pomocí přirozeného jazyka a model se postará o zbytek, píše web ZDNet.

„Náš model dokáže okamžitě generovat nové hlasy a osobnosti, neomezuje se pouze na hrstku mluvčích. Uživatelé mohou například mluvit kterýmkoli z více než 100 000 vlastních hlasů, které již byly vytvořeny na naší platformě pro převod textu na řeč,“ uvedli tvůrci na svém webu Hume AI.

Rychlost odvozování souvislostí v milisekundách

Rychlost odvozování souvislostí modelu by měla být pouhých 300 milisekund, což výrazně překonává GPT-4o od OpenAI, je srovnatelná s novou technologií Sesame a daleko předčí Gemini od Googlu.

Ve slepém testu se 1720 účastníky EVI3 překonal GPT-4o v sedmi dimenzích, včetně emočního projevu, přirozenosti, kvality hlasu, rychlosti reakce a zvládání přerušení. Prokázal tak bezkonkurenční výkonnostní výhody.

Ještě působivější je ale podle webu AIbase fakt, že model během konverzace v reálném čase vyhledává, uvažuje a inteligentně reaguje.

Například při komunikaci s umělou inteligencí dokáže EVI3 naslouchat řeči uživatele, současně volat externí nástroje pro vyhledávání informací a plynule začleňovat odpovědi do konverzace. To výrazně zvyšuje plynulost a praktičnost interakce.

Uvedení nového modelu na trh tedy odráží širší snahu společností zabývajících se umělou inteligencí o vytvoření osobnějších a poutavějších modelů trénováním projevů odlišných osobností.

Související témata:

Výběr článků

Načítám