Главная Документация МоделиMiniMax Voice Clone

Генерация аудио · minimax

MiniMax Voice Clone

speech-2-8-hd

MiniMax Voice Clone — генерация аудио от MiniMax, доступная через единый Ranvik API. Поддерживаемые возможности: async, text_to_audio.

от 16.63 ₽ / запрос

Карточка модели

Технические характеристики

МодальностьГенерация аудио

Провайдерminimax

СтатусАктивна

ID для запросовspeech-2-8-hd

Возможности

Async
Text-to-Audio

Цены

Единица	Цена
за запрос	16.63 ₽

Цены указаны в рублях. Списываются с баланса проекта при каждом успешном запросе.

Поддерживаемые параметры

Параметры передаются вендору как есть (pure proxy) — мы не валидируем их у себя на стороне. Если вендор не примет — вернётся его ошибка.

Параметр Тип Диапазон / values Default Описание

textrequired string max: 10000 — Текст до 10 000 символов. >3000 — лучше через streaming.

voice_settingrequired

object

—

Настройки голоса диктора.

1 формата ввода

voice_setting config

Поле	Тип	Значения	Описание
`voice_id`	string	—	ID голоса (например, "male-qn-qingse", "female-shaonv" или voice_clone_id).
`speed`	number	min: 0.5 · max: 2	Скорость речи 0.5..2.0.
`vol`	number	min: 0 · max: 10	Громкость 0..10.
`pitch`	integer	min: -12 · max: 12	Тональность -12..+12 полутонов.
`emotion`	enum	happy, sad, angry, fearful, disgusted, surprised, neutral	Эмоциональная окраска речи.
`english_normalization`	boolean	—	Нормализация английских слов внутри речи на другом языке.

{
  "voice_id": "male-qn-qingse",
  "speed": 1,
  "vol": 1,
  "pitch": 0,
  "emotion": "happy"
}

audio_setting

object

—

Параметры аудио-файла.

1 формата ввода

audio_setting config

Поле	Тип	Значения	Описание
`sample_rate`	enum	8000, 16000, 22050, 24000, 32000, 44100	Частота дискретизации Hz.
`bitrate`	enum	32000, 64000, 128000, 256000	Битрейт bps.
`format`	enum	mp3, pcm, flac, wav	Аудио-формат.
`channel`	enum	1, 2	Каналы: 1=mono, 2=stereo.

{
  "sample_rate": 32000,
  "bitrate": 128000,
  "format": "mp3",
  "channel": 1
}

voice_modify object — — Модификация голоса в реальном времени (pitch shift, formant change). Подобъект с настройками pitch/intensity/timbre/sound_effects.

pronunciation_dict object — — Словарь произношения для специфичных слов / имён собственных. {tone: [{word, replacement}]}.

language_boost enum Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto — Подсказка языка.

subtitle_enable boolean — false —

output_format enum url, hex hex URL valid 24h, non-streaming only.

stream boolean — false —

async boolean — false Если true — запрос обрабатывается асинхронно: возвращается task_id, статус опрашивается через GET /v1/tasks/{id}. Также включается автоматически при input > 4500 символов.

Параметры ответа

Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.

Sync (HTTP 200)

Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.

Binary response. Content-Type: audio/mpeg, audio/wav, audio/opus, audio/ogg

Async (HTTP 202)

Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.

Поле	Тип	Значения	Описание
`id`	string	—	task_id для GET /v1/tasks/{id}.
`object`	string	audio.task
`status`	enum	queued, processing, completed, failed
`model`	string	—
`created`	integer	—

Опрос статуса (GET /v1/tasks/{id})

GET /v1/tasks/{id}.

Поле	Тип	Значения	Описание
`id`	string	—
`status`	enum	queued, processing, completed, failed, canceled
`modality`	string	audio
`model`	string	—
`data`	array	—	Каждый элемент: `url`— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).
`error`	string	—

Пример запроса

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
    model= "speech-2-8-hd",
    text= "Пример промпта",
    voice_setting= {},
    audio_setting= {},
    voice_modify= {},
    pronunciation_dict= {},
    language_boost= "Chinese",
    subtitle_enable= False,
    output_format= "hex",
    stream= False,
    async= False,
)
print(resp)

Замените rk_live_... на ваш ключ из кабинета.

О провайдере: MiniMax

MiniMax — китайская AI-лаборатория. Известна моделями TTS высокого качества (Speech) с поддержкой многоязычной речи и клонирования голоса, а также видеогенератором Hailuo.

Официальный сайт: https://minimaxi.com

Документация модели у вендора: https://www.minimax.io/platform/document/api-reference