前DeepMind大佬創(chuàng)業(yè),,做出喜怒哀樂以假亂真的AI語音大模型,!美國情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語音大模型Octave。該模型可以根據(jù)用戶輸入的提示詞或劇本,,生成具有人設(shè)特點,、語調(diào)起伏和情感色彩的AI語音,并允許用戶通過文本指令進行二次調(diào)整和創(chuàng)作。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,,最近一輪融資后估值為2.19億美元,。
Alan Cowen在接受VentureBeat視頻電話采訪時介紹,Octave能夠理解上下文中的詞匯,,并預測適當?shù)那榫w,、節(jié)奏、韻律和重音,,使AI語音聽起來更加人性化,。相比過去機械化的AI語音,Octave旨在讓AI語音更有人情味,。這些AI語音不僅帶有憤怒,、悲傷或快樂等情緒,還能將多種情感交織在一起,,例如“夾雜著幽默或惱怒的輕度沮喪”,。Cowen認為,該模型適合用于有聲讀物,、播客,、視頻畫外音和視頻游戲角色配音。
Hume AI在社交媒體平臺X上詳細說明了Octave的具體功能和訓練過程,。據(jù)透露,,用于訓練Octave的語言數(shù)據(jù)是傳統(tǒng)文生語音大模型的1000倍,這使得Octave能夠像人類演員一樣理解劇本,,并使用更逼真的情感,、語義、節(jié)奏,、詞語和重音,。其訓練數(shù)據(jù)中包含了數(shù)百萬小時的公開長篇語音數(shù)據(jù)和Hume AI獨家采集的聲音、視頻數(shù)據(jù),。除了文生語音大模型,,Hume AI還在利用Octave訓練AI系統(tǒng),以更好地預判用戶的AI語音生成需求,。
在一項人類評審盲測的對比實驗中,,Octave的輸出在音質(zhì)、自然度以及語音生成與預期描述匹配度等方面均優(yōu)于ElevenLabs,,表明其AI語音生成過程的可控性和質(zhì)量高于行業(yè)水準,。在推出Octave之前,Hume AI已推出了兩代自研的同理心語音界面(EVI),,聲稱EVI是第一個具有情商的對話式AI,。
當?shù)貢r間11月6日凌晨,特朗普在佛羅里達州棕櫚灘會議中心發(fā)表講話,。華爾街投資大佬比爾·阿克曼此前在為特朗普拉票時呼吁選民不要只看特朗普這個人,,而是要看他背后的整個團隊
2024-11-07 14:05:10特朗普競選團隊都有哪些“大佬”