前DeepMind大佬創(chuàng)業(yè),，做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-02-28 11:49:44 網(wǎng)易

當(dāng)前首發(fā)版本的Octave主要支持英語(yǔ),，其次是西班牙語(yǔ)，未來(lái)可能還會(huì)上線更多語(yǔ)種。該模型在Hume AI開(kāi)發(fā)者平臺(tái)上的使用強(qiáng)度有一定限制，現(xiàn)支持的音頻格式有MP3、WAV和PCM,。

Octave不僅支持生成帶有人設(shè)和人類情感色彩的AI語(yǔ)音，還將推出語(yǔ)音克隆功能,。該模型不僅能理解單個(gè)句子內(nèi)的情感,，還能捕捉上下文之間的情感聯(lián)系，從而更具表達(dá)力和細(xì)節(jié)度,。Octave能夠解析劇本或提示詞中的情節(jié)轉(zhuǎn)折,、情感暗示和角色特征，并將其轉(zhuǎn)化為自然帶感情的語(yǔ)音,，聽(tīng)起來(lái)就像演員在朗讀劇本一樣,。

基于提示詞或劇本，Octave能夠生成各種設(shè)定的AI語(yǔ)音,。它會(huì)自動(dòng)解析一段文字內(nèi)容的含義和風(fēng)格,，包括人稱代詞、簡(jiǎn)稱,、用詞等,，從而生成與角色相符的連貫語(yǔ)音內(nèi)容。用戶還可以通過(guò)具體的角色描述來(lái)引導(dǎo)Octave,，例如特定口音,、人設(shè)特征、職業(yè)角色等,。此外，用戶可以選擇跳過(guò)語(yǔ)音設(shè)計(jì)功能,，直接在Playground上即時(shí)生成語(yǔ)音,。

Octave還支持表演指令功能，可以基于現(xiàn)有語(yǔ)音類型,，進(jìn)一步用指定的情感或說(shuō)話風(fēng)格來(lái)朗讀新劇本,。Hume AI表示，只需一段5秒的音頻,，Octave就能快速克隆出其語(yǔ)音,，但出于安全考慮，涉及較為逼真的孩童語(yǔ)音和特定人物的模仿語(yǔ)音將受限,。

Octave現(xiàn)已在platform.hume.ai平臺(tái)和Hume AI的API上線,。在線平臺(tái)上,，創(chuàng)作者和開(kāi)發(fā)者可以使用語(yǔ)音設(shè)計(jì)、表演指令,、超過(guò)40種預(yù)設(shè)語(yǔ)音的語(yǔ)音庫(kù)以及用于生成有聲書(shū),、播客等長(zhǎng)篇內(nèi)容的項(xiàng)目界面（預(yù)覽版）。而在開(kāi)發(fā)者平臺(tái)上,，Octave可通過(guò)Python和TypeScript SDK訪問(wèn),，這些SDK處理身份驗(yàn)證并提供類型化接口，確保集成的可靠性,。其命令行界面支持快速原型設(shè)計(jì),、測(cè)試及從終端批量處理。

目前,，Hume AI的API允許開(kāi)發(fā)人員每分鐘對(duì)Octave模型發(fā)出最多50次請(qǐng)求,，文本長(zhǎng)度上限為5000個(gè)字符，描述上限為1000個(gè)字符,。每個(gè)請(qǐng)求最多可生成5個(gè)輸出,，支持的音頻格式包括MP3、WAV和PCM,。

首頁(yè)上一頁(yè)123 全文共 3 頁(yè)下一頁(yè)

關(guān)閉

前DeepMind大佬創(chuàng)業(yè),，做出喜怒哀樂(lè)以假亂真的AI語(yǔ)音大模型(2)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)