Генерация аудио · minimax

MiniMax Speech 2.6 Turbo

minimax-speech-2-6-turbo

MiniMax Speech 2.6 Turbo — генерация аудио от MiniMax, доступная через единый Ranvik API.

от 84 ₽ / 1k симв

Технические характеристики

МодальностьГенерация аудио
Провайдерminimax
СтатусАктивна
ID для запросовminimax-speech-2-6-turbo

Цены

ЕдиницаЦена
за 1М символов84 ₽
за 1М символов84 ₽

Цены указаны в рублях. Списываются с баланса проекта при каждом успешном запросе.

Поддерживаемые параметры

Параметры передаются вендору как есть (pure proxy) — мы не валидируем их у себя на стороне. Если вендор не примет — вернётся его ошибка.

ПараметрТипДиапазон / valuesDefaultОписание
textrequiredstringmax: 10000 Текст до 10 000 символов. >3000 — лучше через streaming.
voice_settingrequiredobject Настройки голоса диктора.
1 формата ввода
voice_setting config
ПолеТипЗначенияОписание
voice_idstring ID голоса (например, "male-qn-qingse", "female-shaonv" или voice_clone_id).
speednumbermin: 0.5 · max: 2 Скорость речи 0.5..2.0.
volnumbermin: 0 · max: 10 Громкость 0..10.
pitchintegermin: -12 · max: 12 Тональность -12..+12 полутонов.
emotionenumhappy, sad, angry, fearful, disgusted, surprised, neutral Эмоциональная окраска речи.
english_normalizationboolean Нормализация английских слов внутри речи на другом языке.
{
  "voice_id": "male-qn-qingse",
  "speed": 1,
  "vol": 1,
  "pitch": 0,
  "emotion": "happy"
}
audio_settingobject Параметры аудио-файла.
1 формата ввода
audio_setting config
ПолеТипЗначенияОписание
sample_rateenum8000, 16000, 22050, 24000, 32000, 44100 Частота дискретизации Hz.
bitrateenum32000, 64000, 128000, 256000 Битрейт bps.
formatenummp3, pcm, flac, wav Аудио-формат.
channelenum1, 2 Каналы: 1=mono, 2=stereo.
{
  "sample_rate": 32000,
  "bitrate": 128000,
  "format": "mp3",
  "channel": 1
}
voice_modifyobject Модификация голоса в реальном времени (pitch shift, formant change). Подобъект с настройками pitch/intensity/timbre/sound_effects.
pronunciation_dictobject Словарь произношения для специфичных слов / имён собственных. {tone: [{word, replacement}]}.
language_boostenumChinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto Подсказка языка.
subtitle_enablebooleanfalse
output_formatenumurl, hexhex URL valid 24h, non-streaming only.
streambooleanfalse
asyncbooleanfalse Если true — запрос обрабатывается асинхронно: возвращается task_id, статус опрашивается через GET /v1/tasks/{id}. Также включается автоматически при input > 4500 символов.

Параметры ответа

Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.

Sync (HTTP 200)

Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.

Binary response. Content-Type: audio/mpeg, audio/wav, audio/opus, audio/ogg

Async (HTTP 202)

Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.

ПолеТипЗначенияОписание
idstring task_id для GET /v1/tasks/{id}.
objectstringaudio.task
statusenumqueued, processing, completed, failed
modelstring
createdinteger

Опрос статуса (GET /v1/tasks/{id})

GET /v1/tasks/{id}.

ПолеТипЗначенияОписание
idstring
statusenumqueued, processing, completed, failed, canceled
modalitystringaudio
modelstring
dataarray
Каждый элемент:
  • url— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).
errorstring

Пример запроса

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
    model= "minimax-speech-2-6-turbo",
    text= "Пример промпта",
    voice_setting= {},
    audio_setting= {},
    voice_modify= {},
    pronunciation_dict= {},
    language_boost= "Chinese",
    subtitle_enable= False,
    output_format= "hex",
    stream= False,
    async= False,
)
print(resp)

Замените rk_live_... на ваш ключ из кабинета.

О провайдере: MiniMax

MiniMax — китайская AI-лаборатория. Известна моделями TTS высокого качества (Speech) с поддержкой многоязычной речи и клонирования голоса, а также видеогенератором Hailuo.

Официальный сайт: https://minimaxi.com

Документация модели у вендора: https://www.minimax.io/platform/document/api-reference