前DeepMind大佬創(chuàng)業(yè),,做出喜怒哀樂以假亂真的AI語音大模型,!美國情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語音大模型Octave,。該模型可以根據(jù)用戶輸入的提示詞或劇本,,生成具有人設(shè)特點、語調(diào)起伏和情感色彩的AI語音,,并允許用戶通過文本指令進行二次調(diào)整和創(chuàng)作,。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,最近一輪融資后估值為2.19億美元,。
Alan Cowen在接受VentureBeat視頻電話采訪時介紹,,Octave能夠理解上下文中的詞匯,并預(yù)測適當?shù)那榫w,、節(jié)奏,、韻律和重音,使AI語音聽起來更加人性化,。相比過去機械化的AI語音,,Octave旨在讓AI語音更有人情味。這些AI語音不僅帶有憤怒,、悲傷或快樂等情緒,,還能將多種情感交織在一起,例如“夾雜著幽默或惱怒的輕度沮喪”,。Cowen認為,,該模型適合用于有聲讀物、播客,、視頻畫外音和視頻游戲角色配音,。
Hume AI在社交媒體平臺X上詳細說明了Octave的具體功能和訓(xùn)練過程。據(jù)透露,,用于訓(xùn)練Octave的語言數(shù)據(jù)是傳統(tǒng)文生語音大模型的1000倍,,這使得Octave能夠像人類演員一樣理解劇本,并使用更逼真的情感,、語義,、節(jié)奏、詞語和重音,。其訓(xùn)練數(shù)據(jù)中包含了數(shù)百萬小時的公開長篇語音數(shù)據(jù)和Hume AI獨家采集的聲音,、視頻數(shù)據(jù)。除了文生語音大模型,,Hume AI還在利用Octave訓(xùn)練AI系統(tǒng),,以更好地預(yù)判用戶的AI語音生成需求。
在一項人類評審盲測的對比實驗中,,Octave的輸出在音質(zhì),、自然度以及語音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs,表明其AI語音生成過程的可控性和質(zhì)量高于行業(yè)水準,。在推出Octave之前,,Hume AI已推出了兩代自研的同理心語音界面(EVI),聲稱EVI是第一個具有情商的對話式AI。
當前首發(fā)版本的Octave主要支持英語,,其次是西班牙語,,未來可能還會上線更多語種。該模型在Hume AI開發(fā)者平臺上的使用強度有一定限制,,現(xiàn)支持的音頻格式有MP3,、WAV和PCM。
Octave不僅支持生成帶有人設(shè)和人類情感色彩的AI語音,,還將推出語音克隆功能,。該模型不僅能理解單個句子內(nèi)的情感,還能捕捉上下文之間的情感聯(lián)系,,從而更具表達力和細節(jié)度,。Octave能夠解析劇本或提示詞中的情節(jié)轉(zhuǎn)折、情感暗示和角色特征,,并將其轉(zhuǎn)化為自然帶感情的語音,,聽起來就像演員在朗讀劇本一樣。
基于提示詞或劇本,,Octave能夠生成各種設(shè)定的AI語音,。它會自動解析一段文字內(nèi)容的含義和風格,包括人稱代詞,、簡稱,、用詞等,從而生成與角色相符的連貫語音內(nèi)容,。用戶還可以通過具體的角色描述來引導(dǎo)Octave,,例如特定口音、人設(shè)特征,、職業(yè)角色等,。此外,用戶可以選擇跳過語音設(shè)計功能,,直接在Playground上即時生成語音,。
Octave還支持表演指令功能,可以基于現(xiàn)有語音類型,,進一步用指定的情感或說話風格來朗讀新劇本,。Hume AI表示,,只需一段5秒的音頻,,Octave就能快速克隆出其語音,但出于安全考慮,,涉及較為逼真的孩童語音和特定人物的模仿語音將受限,。
Octave現(xiàn)已在platform.hume.ai平臺和Hume AI的API上線。在線平臺上,,創(chuàng)作者和開發(fā)者可以使用語音設(shè)計,、表演指令,、超過40種預(yù)設(shè)語音的語音庫以及用于生成有聲書、播客等長篇內(nèi)容的項目界面(預(yù)覽版),。而在開發(fā)者平臺上,,Octave可通過Python和TypeScript SDK訪問,這些SDK處理身份驗證并提供類型化接口,,確保集成的可靠性,。其命令行界面支持快速原型設(shè)計、測試及從終端批量處理,。
目前,,Hume AI的API允許開發(fā)人員每分鐘對Octave模型發(fā)出最多50次請求,文本長度上限為5000個字符,,描述上限為1000個字符,。每個請求最多可生成5個輸出,支持的音頻格式包括MP3,、WAV和PCM,。
Hume AI對Octave進行了內(nèi)部評估,將其與業(yè)內(nèi)領(lǐng)先的AI文生語音大模型ElevenLabs進行對比,?;鶞蕼y試包含120個多樣化語音描述的樣本,結(jié)果顯示,,Octave在音質(zhì),、自然度以及提示詞匹配度方面均略勝一籌。
Hume AI目前采用訂閱制收費方式,,分為免費,、Creator、Creator Pro和Enterprise四大類,。免費版每月提供1萬個字符的文本轉(zhuǎn)語音,,總時長約10分鐘;入門版每月3美元,,提供3萬個字符,,總時長約30分鐘;Creator版每月10美元,,提供10萬個字符,,總時長約100分鐘;專業(yè)版每月50美元,,提供50萬個字符,,總時長約500分鐘。規(guī)模、商業(yè)和企業(yè)級接入使用收費標準則有所不同,。
Hume AI的新文生語音大模型Octave及其情感智能語音技術(shù)有望解決長期以來AI語音應(yīng)答機械,、語調(diào)生硬、音色千篇一律的問題,,使人機語音交互更接近人與人之間的溝通,。同時,Octave也可以為影視,、視聽,、新媒體、數(shù)字人等多個行業(yè)產(chǎn)出定制化配音,,加速AI語音的商業(yè)化落地,。
當?shù)貢r間11月6日凌晨,特朗普在佛羅里達州棕櫚灘會議中心發(fā)表講話,。華爾街投資大佬比爾·阿克曼此前在為特朗普拉票時呼吁選民不要只看特朗普這個人,,而是要看他背后的整個團隊
2024-11-07 14:05:10特朗普競選團隊都有哪些“大佬”