前DeepMind大佬創(chuàng)業(yè),做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型!美國(guó)情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語(yǔ)音大模型Octave,。該模型可以根據(jù)用戶輸入的提示詞或劇本,,生成具有人設(shè)特點(diǎn),、語(yǔ)調(diào)起伏和情感色彩的AI語(yǔ)音,,并允許用戶通過(guò)文本指令進(jìn)行二次調(diào)整和創(chuàng)作,。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,,最近一輪融資后估值為2.19億美元,。
Alan Cowen在接受VentureBeat視頻電話采訪時(shí)介紹,,Octave能夠理解上下文中的詞匯,,并預(yù)測(cè)適當(dāng)?shù)那榫w、節(jié)奏,、韻律和重音,,使AI語(yǔ)音聽(tīng)起來(lái)更加人性化,。相比過(guò)去機(jī)械化的AI語(yǔ)音,Octave旨在讓AI語(yǔ)音更有人情味,。這些AI語(yǔ)音不僅帶有憤怒,、悲傷或快樂(lè)等情緒,還能將多種情感交織在一起,,例如“夾雜著幽默或惱怒的輕度沮喪”,。Cowen認(rèn)為,該模型適合用于有聲讀物,、播客,、視頻畫(huà)外音和視頻游戲角色配音。
Hume AI在社交媒體平臺(tái)X上詳細(xì)說(shuō)明了Octave的具體功能和訓(xùn)練過(guò)程,。據(jù)透露,用于訓(xùn)練Octave的語(yǔ)言數(shù)據(jù)是傳統(tǒng)文生語(yǔ)音大模型的1000倍,,這使得Octave能夠像人類演員一樣理解劇本,,并使用更逼真的情感、語(yǔ)義,、節(jié)奏,、詞語(yǔ)和重音。其訓(xùn)練數(shù)據(jù)中包含了數(shù)百萬(wàn)小時(shí)的公開(kāi)長(zhǎng)篇語(yǔ)音數(shù)據(jù)和Hume AI獨(dú)家采集的聲音,、視頻數(shù)據(jù),。除了文生語(yǔ)音大模型,Hume AI還在利用Octave訓(xùn)練AI系統(tǒng),,以更好地預(yù)判用戶的AI語(yǔ)音生成需求,。
推特前員工針對(duì)馬斯克及其社交平臺(tái)X(前身為推特)發(fā)起訴訟后,X向法院提交的股東名單于周三公開(kāi)
2024-08-23 15:54:51馬斯克的X重量級(jí)股東名單全曝光