Článek
EVI 3 (Empathic Voice Interface 3) vyvinula společnost Hume AI jako hlasový jazykový model třetí generace na základě multimodálních datových souborů. Ty integrují přepisy řeči, uvažování a hlasovou syntézu, píše web AIbase.
Oproti svým předchůdcům by měl nový model udělat kvalitativní skok v porozumění emocím, přirozenosti hlasového projevu a personalizovaném přizpůsobení.
Podobně jako hlasový režim ChatGPT je i EVI 3 vybaven sortimentem předprogramovaných hlasů umělé inteligence. Ty jsou seřazeny podle osobnosti a popisu postavy, včetně starého komika, životního kouče, moudrého čaroděje, pána podzemí nebo filozofa 18. století Davida Huma.
Model by měl tak generovat zcela nové hlasy a nastavení osobnosti během méně než jedné sekundy na základě jednoduchých textových podnětů od uživatelů, podporovat více než 30 komplexních hlasových stylů a dodat umělé inteligenci jedinečnost osobnosti nebo emoce.
Namísto toho, aby uživatelé museli upravovat dlouhý seznam konkrétních atributů, jako je tomu například při vytváření Bitmoji nebo postavy ve videohře, tak stačí jednoduše popsat vlastnosti požadovaného hlasu pomocí přirozeného jazyka a model se postará o zbytek, píše web ZDNet.
„Náš model dokáže okamžitě generovat nové hlasy a osobnosti, neomezuje se pouze na hrstku mluvčích. Uživatelé mohou například mluvit kterýmkoli z více než 100 000 vlastních hlasů, které již byly vytvořeny na naší platformě pro převod textu na řeč,“ uvedli tvůrci na svém webu Hume AI.
Meet EVI 3, another step toward general voice intelligence.
— Hume (@hume_ai) May 29, 2025
EVI 3 is a speech-language model that can understand and generate any human voice, not just a handful of speakers. With this broader voice intelligence comes greater expressiveness and a deeper understanding of tune,… pic.twitter.com/Sa2YrM2P7A
Rychlost odvozování souvislostí v milisekundách
Rychlost odvozování souvislostí modelu by měla být pouhých 300 milisekund, což výrazně překonává GPT-4o od OpenAI, je srovnatelná s novou technologií Sesame a daleko předčí Gemini od Googlu.
Ve slepém testu se 1720 účastníky EVI3 překonal GPT-4o v sedmi dimenzích, včetně emočního projevu, přirozenosti, kvality hlasu, rychlosti reakce a zvládání přerušení. Prokázal tak bezkonkurenční výkonnostní výhody.
Ještě působivější je ale podle webu AIbase fakt, že model během konverzace v reálném čase vyhledává, uvažuje a inteligentně reaguje.
Například při komunikaci s umělou inteligencí dokáže EVI3 naslouchat řeči uživatele, současně volat externí nástroje pro vyhledávání informací a plynule začleňovat odpovědi do konverzace. To výrazně zvyšuje plynulost a praktičnost interakce.
Uvedení nového modelu na trh tedy odráží širší snahu společností zabývajících se umělou inteligencí o vytvoření osobnějších a poutavějších modelů trénováním projevů odlišných osobností.