MiniMax Speech 2.6 HD

ПровайдерMinimax

minimax-speech-2-6-hd — генерация аудио-модель от Minimax.

Попробуйте прямо здесь

MiniMax Speech 2.6 HD Открыть в Playground

Что умеет MiniMax Speech 2.6 HD

Базовый набор возможностей модели — см. документацию вендора.

Стоимость

за 1М символов

200 ₽

Цены указаны в рублях и списываются с баланса проекта за успешные запросы. Надбавки (+) суммируются с базовой ставкой.

Технические характеристики

Vendor

minimax

Modality

audio

Параметры запроса

Параметры, которые принимает модель. Передаются в теле запроса.

ПараметрТипДиапазон / значенияПо умолчаниюОписание

textreq

string

max: 10000

—

Текст до 10 000 символов. >3000 — лучше через streaming.

voice_settingreq

object

—

—

Настройки голоса диктора.

1 формата ввода

voice_setting config

Поле	Тип	Значения	Описание
`voice_id`	string	—	ID голоса (например, "male-qn-qingse", "female-shaonv" или voice_clone_id).
`speed`	number	min: 0.5 · max: 2	Скорость речи 0.5..2.0.
`vol`	number	min: 0 · max: 10	Громкость 0..10.
`pitch`	integer	min: -12 · max: 12	Тональность -12..+12 полутонов.
`emotion`	enum	happy, sad, angry, fearful, disgusted, surprised, neutral	Эмоциональная окраска речи.
`english_normalization`	boolean	—	Нормализация английских слов внутри речи на другом языке.

{
  "voice_id": "male-qn-qingse",
  "speed": 1,
  "vol": 1,
  "pitch": 0,
  "emotion": "happy"
}

audio_setting

object

—

—

Параметры аудио-файла.

1 формата ввода

audio_setting config

Поле	Тип	Значения	Описание
`sample_rate`	enum	8000, 16000, 22050, 24000, 32000, 44100	Частота дискретизации Hz.
`bitrate`	enum	32000, 64000, 128000, 256000	Битрейт bps.
`format`	enum	mp3, pcm, flac, wav	Аудио-формат.
`channel`	enum	1, 2	Каналы: 1=mono, 2=stereo.

{
  "sample_rate": 32000,
  "bitrate": 128000,
  "format": "mp3",
  "channel": 1
}

voice_modify

object

—

—

Модификация голоса в реальном времени (pitch shift, formant change). Подобъект с настройками pitch/intensity/timbre/sound_effects.

pronunciation_dict

object

—

—

Словарь произношения для специфичных слов / имён собственных. {tone: [{word, replacement}]}.

language_boost

enum

Chinese, Chinese,Yue, English, Arabic, Russian, Spanish, French, Portuguese, German, Turkish, Dutch, Ukrainian, Vietnamese, Indonesian, Japanese, Italian, Korean, Thai, Polish, Romanian, Greek, Czech, Finnish, Hindi, Bulgarian, Danish, Hebrew, Malay, Persian, Slovak, Swedish, Croatian, Filipino, Hungarian, Norwegian, Slovenian, Catalan, Nynorsk, Tamil, Afrikaans, auto

—

Подсказка языка.

subtitle_enable

boolean

—

false

output_format

enum

url, hex

hex

URL valid 24h, non-streaming only.

stream

boolean

—

false

async

boolean

—

false

Если true — запрос обрабатывается асинхронно: возвращается task_id, статус опрашивается через GET /v1/tasks/{id}. Также включается автоматически при input > 4500 символов.

Параметры ответа

Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.

Sync (HTTP 200)

Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.

Binary response. Content-Type: audio/mpeg, audio/wav, audio/opus, audio/ogg

Async (HTTP 202)

Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.

ПолеТипЗначенияОписание

id

string

—

task_id для GET /v1/tasks/{id}.

object

string

audio.task

status

enum

queued, processing, completed, failed

model

string

—

created

integer

—

Опрос статуса (GET /v1/tasks/{id})

GET /v1/tasks/{id}.

ПолеТипЗначенияОписание

id

string

—

status

enum

queued, processing, completed, failed, canceled

modality

string

audio

model

string

—

data

array

—

Каждый элемент:

url— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).

error

string

—

Пример кода

minimax-speech-2-6-hd_example.py

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
    model= "minimax-speech-2-6-hd",
    text= "Пример промпта",
    voice_setting= {},
    audio_setting= {},
    voice_modify= {},
    pronunciation_dict= {},
    language_boost= "Chinese",
    subtitle_enable= False,
    output_format= "hex",
    stream= False,
    async= False,
)
print(resp)

Полная документация модели