當(dāng)前首發(fā)版本的Octave主要支持英語,其次是西班牙語,,未來可能還會上線更多語種,。該模型在Hume AI開發(fā)者平臺上的使用強(qiáng)度有一定限制,,現(xiàn)支持的音頻格式有MP3、WAV和PCM,。
Octave不僅支持生成帶有人設(shè)和人類情感色彩的AI語音,,還將推出語音克隆功能。該模型不僅能理解單個句子內(nèi)的情感,,還能捕捉上下文之間的情感聯(lián)系,,從而更具表達(dá)力和細(xì)節(jié)度。Octave能夠解析劇本或提示詞中的情節(jié)轉(zhuǎn)折,、情感暗示和角色特征,,并將其轉(zhuǎn)化為自然帶感情的語音,聽起來就像演員在朗讀劇本一樣,。
基于提示詞或劇本,,Octave能夠生成各種設(shè)定的AI語音。它會自動解析一段文字內(nèi)容的含義和風(fēng)格,,包括人稱代詞,、簡稱、用詞等,,從而生成與角色相符的連貫語音內(nèi)容,。用戶還可以通過具體的角色描述來引導(dǎo)Octave,例如特定口音,、人設(shè)特征,、職業(yè)角色等。此外,,用戶可以選擇跳過語音設(shè)計功能,,直接在Playground上即時生成語音。
Octave還支持表演指令功能,,可以基于現(xiàn)有語音類型,,進(jìn)一步用指定的情感或說話風(fēng)格來朗讀新劇本。Hume AI表示,,只需一段5秒的音頻,Octave就能快速克隆出其語音,,但出于安全考慮,,涉及較為逼真的孩童語音和特定人物的模仿語音將受限。
Octave現(xiàn)已在platform.hume.ai平臺和Hume AI的API上線,。在線平臺上,,創(chuàng)作者和開發(fā)者可以使用語音設(shè)計、表演指令,、超過40種預(yù)設(shè)語音的語音庫以及用于生成有聲書,、播客等長篇內(nèi)容的項目界面(預(yù)覽版),。而在開發(fā)者平臺上,Octave可通過Python和TypeScript SDK訪問,,這些SDK處理身份驗(yàn)證并提供類型化接口,,確保集成的可靠性。其命令行界面支持快速原型設(shè)計,、測試及從終端批量處理,。
目前,Hume AI的API允許開發(fā)人員每分鐘對Octave模型發(fā)出最多50次請求,,文本長度上限為5000個字符,,描述上限為1000個字符。每個請求最多可生成5個輸出,,支持的音頻格式包括MP3,、WAV和PCM。