前DeepMind大佬創(chuàng)業(yè)，做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-28 11:49:44 網(wǎng)易

前DeepMind大佬創(chuàng)業(yè),，做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型,！美國(guó)情感智能技術(shù)AI創(chuàng)企Hume AI于2月27日發(fā)布了新款文生語(yǔ)音大模型Octave。該模型可以根據(jù)用戶輸入的提示詞或劇本,，生成具有人設(shè)特點(diǎn),、語(yǔ)調(diào)起伏和情感色彩的AI語(yǔ)音，并允許用戶通過(guò)文本指令進(jìn)行二次調(diào)整和創(chuàng)作,。Hume AI由DeepMind前研究員Alan Cowen于2021年創(chuàng)立,，最近一輪融資后估值為2.19億美元。

Alan Cowen在接受VentureBeat視頻電話采訪時(shí)介紹,，Octave能夠理解上下文中的詞匯,，并預(yù)測(cè)適當(dāng)?shù)那榫w、節(jié)奏,、韻律和重音,，使AI語(yǔ)音聽起來(lái)更加人性化。相比過(guò)去機(jī)械化的AI語(yǔ)音,，Octave旨在讓AI語(yǔ)音更有人情味,。這些AI語(yǔ)音不僅帶有憤怒、悲傷或快樂(lè)等情緒,，還能將多種情感交織在一起,，例如“夾雜著幽默或惱怒的輕度沮喪”。Cowen認(rèn)為,，該模型適合用于有聲讀物,、播客、視頻畫外音和視頻游戲角色配音,。

Hume AI在社交媒體平臺(tái)X上詳細(xì)說(shuō)明了Octave的具體功能和訓(xùn)練過(guò)程,。據(jù)透露，用于訓(xùn)練Octave的語(yǔ)言數(shù)據(jù)是傳統(tǒng)文生語(yǔ)音大模型的1000倍,，這使得Octave能夠像人類演員一樣理解劇本,，并使用更逼真的情感、語(yǔ)義,、節(jié)奏,、詞語(yǔ)和重音。其訓(xùn)練數(shù)據(jù)中包含了數(shù)百萬(wàn)小時(shí)的公開長(zhǎng)篇語(yǔ)音數(shù)據(jù)和Hume AI獨(dú)家采集的聲音,、視頻數(shù)據(jù),。除了文生語(yǔ)音大模型，Hume AI還在利用Octave訓(xùn)練AI系統(tǒng),，以更好地預(yù)判用戶的AI語(yǔ)音生成需求,。

在一項(xiàng)人類評(píng)審盲測(cè)的對(duì)比實(shí)驗(yàn)中,，Octave的輸出在音質(zhì)、自然度以及語(yǔ)音生成與預(yù)期描述匹配度等方面均優(yōu)于ElevenLabs,，表明其AI語(yǔ)音生成過(guò)程的可控性和質(zhì)量高于行業(yè)水準(zhǔn),。在推出Octave之前，Hume AI已推出了兩代自研的同理心語(yǔ)音界面（EVI）,，聲稱EVI是第一個(gè)具有情商的對(duì)話式AI,。

當(dāng)前首發(fā)版本的Octave主要支持英語(yǔ)，其次是西班牙語(yǔ),，未來(lái)可能還會(huì)上線更多語(yǔ)種,。該模型在Hume AI開發(fā)者平臺(tái)上的使用強(qiáng)度有一定限制，現(xiàn)支持的音頻格式有MP3,、WAV和PCM,。

Octave不僅支持生成帶有人設(shè)和人類情感色彩的AI語(yǔ)音，還將推出語(yǔ)音克隆功能,。該模型不僅能理解單個(gè)句子內(nèi)的情感,，還能捕捉上下文之間的情感聯(lián)系，從而更具表達(dá)力和細(xì)節(jié)度,。Octave能夠解析劇本或提示詞中的情節(jié)轉(zhuǎn)折,、情感暗示和角色特征，并將其轉(zhuǎn)化為自然帶感情的語(yǔ)音,，聽起來(lái)就像演員在朗讀劇本一樣,。

基于提示詞或劇本，Octave能夠生成各種設(shè)定的AI語(yǔ)音,。它會(huì)自動(dòng)解析一段文字內(nèi)容的含義和風(fēng)格,，包括人稱代詞、簡(jiǎn)稱,、用詞等,，從而生成與角色相符的連貫語(yǔ)音內(nèi)容。用戶還可以通過(guò)具體的角色描述來(lái)引導(dǎo)Octave,，例如特定口音,、人設(shè)特征、職業(yè)角色等,。此外,，用戶可以選擇跳過(guò)語(yǔ)音設(shè)計(jì)功能，直接在Playground上即時(shí)生成語(yǔ)音,。

Octave還支持表演指令功能，可以基于現(xiàn)有語(yǔ)音類型,，進(jìn)一步用指定的情感或說(shuō)話風(fēng)格來(lái)朗讀新劇本,。Hume AI表示,，只需一段5秒的音頻，Octave就能快速克隆出其語(yǔ)音,，但出于安全考慮,，涉及較為逼真的孩童語(yǔ)音和特定人物的模仿語(yǔ)音將受限。

Octave現(xiàn)已在platform.hume.ai平臺(tái)和Hume AI的API上線,。在線平臺(tái)上,，創(chuàng)作者和開發(fā)者可以使用語(yǔ)音設(shè)計(jì)、表演指令,、超過(guò)40種預(yù)設(shè)語(yǔ)音的語(yǔ)音庫(kù)以及用于生成有聲書,、播客等長(zhǎng)篇內(nèi)容的項(xiàng)目界面（預(yù)覽版）。而在開發(fā)者平臺(tái)上,，Octave可通過(guò)Python和TypeScript SDK訪問(wèn),，這些SDK處理身份驗(yàn)證并提供類型化接口，確保集成的可靠性,。其命令行界面支持快速原型設(shè)計(jì),、測(cè)試及從終端批量處理。

目前,，Hume AI的API允許開發(fā)人員每分鐘對(duì)Octave模型發(fā)出最多50次請(qǐng)求,，文本長(zhǎng)度上限為5000個(gè)字符，描述上限為1000個(gè)字符,。每個(gè)請(qǐng)求最多可生成5個(gè)輸出,，支持的音頻格式包括MP3、WAV和PCM,。

Hume AI對(duì)Octave進(jìn)行了內(nèi)部評(píng)估,，將其與業(yè)內(nèi)領(lǐng)先的AI文生語(yǔ)音大模型ElevenLabs進(jìn)行對(duì)比?；鶞?zhǔn)測(cè)試包含120個(gè)多樣化語(yǔ)音描述的樣本,，結(jié)果顯示，Octave在音質(zhì),、自然度以及提示詞匹配度方面均略勝一籌,。

Hume AI目前采用訂閱制收費(fèi)方式，分為免費(fèi),、Creator,、Creator Pro和Enterprise四大類。免費(fèi)版每月提供1萬(wàn)個(gè)字符的文本轉(zhuǎn)語(yǔ)音,，總時(shí)長(zhǎng)約10分鐘,；入門版每月3美元，提供3萬(wàn)個(gè)字符,，總時(shí)長(zhǎng)約30分鐘,；Creator版每月10美元,，提供10萬(wàn)個(gè)字符，總時(shí)長(zhǎng)約100分鐘,；專業(yè)版每月50美元,，提供50萬(wàn)個(gè)字符，總時(shí)長(zhǎng)約500分鐘,。規(guī)模,、商業(yè)和企業(yè)級(jí)接入使用收費(fèi)標(biāo)準(zhǔn)則有所不同。

Hume AI的新文生語(yǔ)音大模型Octave及其情感智能語(yǔ)音技術(shù)有望解決長(zhǎng)期以來(lái)AI語(yǔ)音應(yīng)答機(jī)械,、語(yǔ)調(diào)生硬,、音色千篇一律的問(wèn)題，使人機(jī)語(yǔ)音交互更接近人與人之間的溝通,。同時(shí),，Octave也可以為影視、視聽,、新媒體,、數(shù)字人等多個(gè)行業(yè)產(chǎn)出定制化配音，加速AI語(yǔ)音的商業(yè)化落地,。

(責(zé)任編輯：盧其龍 CN070)

關(guān)閉

前DeepMind大佬創(chuàng)業(yè)，做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)