API介绍
来自Minimax的超长文本语音生成
API调试台
登录后,探索更多精彩功能! 点击登录
API列表 (8)
| API描述 | 接口地址 | 请求方法 | 稳定性 | 参数说明 | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
T2A(语音生成-异步) | POST | 稳定 | 查看详情 | |||||||||||
文档详情 来自Minimax的语音生成模型 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 请求的模型版本,可选范围:speech-2.8-turbo,speech-2.8-hd,speech-2.6-hd, speech-2.6-turbo, speech-02-hd, speech-02-turbo, speech-01-hd, speech-01-turbo 枚举值: speech-2.6-hdspeech-2.6-turbospeech-02-hdspeech-02-turbospeech-01-hdspeech-01-turbospeech-2.8-turbospeech-2.8-hdtextstring必需 需要合成语音的文本,长度限制小于 50000 字符,适用于长文本合成 voice_settingobject可选 voice_idstring可选 合成音频的音色编号,支持系统音色、复刻音色以及文生音色 speednumber可选 合成音频的语速,取值范围 [0.5,2],默认值为1.0 volnumber可选 合成音频的音量,取值范围 (0,10],默认值为1.0 pitchinteger可选 合成音频的语调,取值范围 [-12,12],默认值为0 emotionenum<string>可选 控制合成语音的情绪,模型会根据输入文本自动匹配情绪 枚举值: happysadangryfearfuldisgustedsurprisedcalmfluenttext_normalizationboolean可选 是否启用中文、英语文本规范化,开启后可提升数字阅读场景的性能 latex_readboolean可选 控制是否朗读 latex 公式,默认为 false audio_settingobject可选 sample_rateenum<integer>可选 生成音频的采样率,默认为 32000 枚举值: 80001600022050240003200044100bitrateenum<integer>可选 生成音频的比特率,默认值为 128000,仅对 mp3 格式有效 枚举值: 3200064000128000256000formatenum<string>可选 生成音频的格式,默认为 mp3 枚举值: mp3pcmflacwavchannelenum<integer>可选 生成音频的声道数,1 为单声道,2 为双声道 枚举值: 12force_cbrboolean可选 是否使用恒定比特率编码,仅对流式输出且格式为 mp3 时生效 pronunciation_dictobject可选 tonearray[string]可选 替换需要特殊标注的文字或符号对应的注音或发音替换规则 timber_weightsarray[object]可选 voice_idstring可选 合成音频的音色编号 weightinteger可选 音色的权重,取值范围 [1, 100] language_boostenum<string>可选 是否增强对指定的小语种和方言的识别能力,默认值为 null 枚举值: ChineseChinese,YueEnglishArabicRussianSpanishFrenchPortugueseGermanTurkishDutchUkrainianVietnameseIndonesianJapaneseItalianKoreanThaiPolishRomanianGreekCzechFinnishHindiBulgarianDanishHebrewMalayPersianSlovakSwedishCroatianFilipinoHungarianNorwegianSlovenianCatalanNynorskTamilAfrikaansautovoice_modifyobject可选 pitchenum<integer>可选 音高调整(低沉/明亮),范围 [-100,100] 枚举值: -100100intensityenum<integer>可选 强度调整(力量感/柔和),范围 [-100,100] 枚举值: -100100timbreenum<integer>可选 音色调整(磁性/清脆),范围 [-100,100] 枚举值: -100100sound_effectsenum<string>可选 音效设置 枚举值: spacious_echoauditorium_echolofi_telephoneroboticoutput_formatenum<string>可选 控制输出结果的形式,流式场景仅支持返回 hex 形式 枚举值: urlhex | ||||||||||||||
T2A(语音生成-状态查询) | GET | 稳定 | 查看详情 | |||||||||||
文档详情 接口说明 价格:0 PTC / 次 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonQuery参数task_idstring可选 | ||||||||||||||
T2V(文生音色) | POST | 稳定 | 查看详情 | |||||||||||
文档详情 接口说明 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsongenderstring必需 声音的性别。取值可选,1.male、2.female。 agestring必需 声音的年龄。取值可选:1.child、2.teenager、3.young、4.middle-aged、5.old。 voice_descarray[string]可选 自定义输入音色风格描述词,比如[‘casual’,‘fashion’],描述词需少于等于8个。 textstring必需 试听音频文本。 | ||||||||||||||
Files(音频文件下载) | GET | 稳定 | 查看详情 | |||||||||||
文档详情 接口说明 价格:0 PTC / 次 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Query参数file_idstring可选 | ||||||||||||||
Music-Upload(上传原音乐) | POST | 稳定 | 查看详情 | |||||||||||
暂无数据 | ||||||||||||||
Music-Generation(生成新音乐) | POST | 稳定 | 查看详情 | |||||||||||
文档详情 允许用户通过自然语言灵感描述(prompt)和完整歌词(lyrics),一键生成高质量的AI音乐,适合音乐创作、歌词配曲、AI歌声生成等场景。 支持模型及价格
官方文档:https://platform.minimaxi.com/docs/api-reference/music-generation 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Content-Typestring可选 示例值: application/jsonBody参数 application/jsonmodelenum<string>必需 🎯 支持调用的音乐生成模型 枚举值: music-2.0music-1.5music-2.5music-2.5+promptstring必需 📝 音乐的描述,用于指定风格、情绪和场景。
lyricsstring必需 📜 歌曲的歌词,相关规范如下:
streamboolean可选 ⚡ 是否开启流式返回,默认值:false output_formatenum<string>可选 📤 音频的返回格式,相关说明如下:
枚举值: urlhexaudio_settingobject可选 🔧 音频生成配置项,用于自定义音频的基础参数 sample_rateenum<integer>可选 🎚️ 音频采样率,支持可选值:16000 / 24000 / 32000 / 44100 枚举值: 16000240003200044100bitrateenum<integer>可选 📶 音频比特率,支持可选值:32000 / 64000 / 128000 / 256000 枚举值: 3200064000128000256000formatenum<string>可选 📄 音频文件格式,可选值:‘mp3’ / ‘wav’ / ‘pcm’ 枚举值: mp3wavpcmaigc_watermarkboolean可选 🏷️ 末尾添加 AIGC 音频节奏水印,相关限制:仅对非流式返回生效,默认值:关闭(false) | ||||||||||||||
Upload(音色上传) | POST | 稳定 | 查看详情 | |||||||||||
文档详情 如果需要克隆音色,请先通过此接口上传 价格:免费 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Body参数 application/jsonpurposestring必需 filestring必需 | ||||||||||||||
Voice-Clone(音色克隆) | POST | 稳定 | 查看详情 | |||||||||||
文档详情 复刻试听参数。模型将使用复刻后的音色念诵本段文本内容,并以链接的形式将音频合成结果返回,供试听复刻效果。限制2000字符以内。注:试听将根据字符数正常收取语音合成费用,定价与T2A各接口一致 价格:1.5 PTC/音色 请求参数 Header参数Authorizationstring可选 示例值: Bearer {{YOUR_API_KEY}}Body参数 application/jsonfile_idinteger必需 音频复刻参数。复刻音频的fileid。支持mp3、m4a、wav格式。 voice_idstring必需 音频复刻参数。用户可自定义voiceid,可参考取值注意事项。
textstring可选 复刻试听参数。模型将使用复刻后的音色念诵本段文本内容,并以链接的形式将音频合成结果返回,供试听复刻效果。限制2000字符以内。注:试听将根据字符数正常收取语音合成费用,定价与T2A各接口一致。 modelstring可选 复刻试听参数。指定试听使用的语音模型,传"text"字段时必传该字段。可选项:speech-02-hdspeech-02-turbospeech-01-hdspeech-01-turbo clone_promptobject可选 prompt_audiointeger必需 音频prompt参数,填入通过File接口中的upload上传示例音频得到的"file_id",示例音频时长必须小于8s。 prompt_textstring必需 音频prompt参数,填入示例音频的对应文本,需确保和音频内容一致,句末需有标点符号做结尾。 need_noise_reductionboolean必需 音频复刻参数。是否开启降噪。不传时默认取false。 need_volume_normalizationboolean必需 音频复刻参数。是否开启音量归一化。不传时默认取false。 | ||||||||||||||
API价格表
| 模型 | 说明 | 302.AI价格 |
|---|
Music-Upload | 上传原音乐 |
|
Music-Generation | 生成新音乐 |
|
T2A (voice generation-synchronization) | T2A(语音生成-同步) |
|
T2A | 异步超长文本语音生成 |
|
T2A | 语音生成-状态查询 |
|
T2V | 文生音色 |
|
Files | 音频文件下载 |
|
Upload | 音色上传 |
|
Voice-Clone | 音色克隆 |
|
猜你喜欢
Fish Audio
Microsoft Azure
Elevenlabs
起









