Генерация аудио · openai

Whisper-1

whisper-1

Whisper-1 — генерация аудио от OpenAI, доступная через единый Ranvik API.

от 0.033 ₽ / сек

Карточка модели

Технические характеристики

МодальностьГенерация аудио

Провайдерopenai

СтатусАктивна

ID для запросовwhisper-1

Цены

Единица	Цена
за секунду	0.033 ₽
за секунду	0.033 ₽

Цены указаны в рублях. Списываются с баланса проекта при каждом успешном запросе.

Поддерживаемые параметры

Параметры передаются вендору как есть (pure proxy) — мы не валидируем их у себя на стороне. Если вендор не примет — вернётся его ошибка.

Параметр	Тип	Диапазон / values	Default	Описание
`file`required	string	—	—	Аудио-файл для транскрипции (передаётся как multipart/form-data, НЕ JSON). Поддерживаемые форматы: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
`language`	string	—	—	Язык аудио в формате ISO-639-1 (en, ru, ja и т.д.). Указание языка улучшает точность и latency. примеры значений Примеры en ru ja zh es
`prompt`	string	—	—	Опциональный текст для guidance — стилистическая подсказка модели или продолжение предыдущего аудио-сегмента. Должен быть на том же языке, что и аудио.
`response_format`	enum	json, text, srt, verbose_json, vtt	json	Формат ответа. json — стандарт, text — только текст, srt/vtt — субтитры с таймкодами, verbose_json — расширенный JSON с языком/длительностью/сегментами.
`temperature`	number	min: 0 · max: 1	0	Sampling temperature 0..1. 0 — детерминированный, выше — более случайный. При 0 модель использует log-probability adaptive boost.
`timestamp_granularities`	array of strings	—	—	Уровень таймкодов: word и/или segment. ТРЕБУЕТ response_format=verbose_json. word — дополнительная latency. Можно передать оба значения. примеры значений Примеры [ "word" ] [ "segment" ] [ "word", "segment" ]

Параметры ответа

Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.

Sync (HTTP 200)

Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.

Binary response. Content-Type: audio/mpeg, audio/wav, audio/opus, audio/ogg

Async (HTTP 202)

Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.

Поле	Тип	Значения	Описание
`id`	string	—	task_id для GET /v1/tasks/{id}.
`object`	string	audio.task
`status`	enum	queued, processing, completed, failed
`model`	string	—
`created`	integer	—

Опрос статуса (GET /v1/tasks/{id})

GET /v1/tasks/{id}.

Поле	Тип	Значения	Описание
`id`	string	—
`status`	enum	queued, processing, completed, failed, canceled
`modality`	string	audio
`model`	string	—
`data`	array	—	Каждый элемент: `url`— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).
`error`	string	—

Пример запроса

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
    model= "whisper-1",
    file= "value",
    language= "value",
    prompt= "Пример промпта",
    response_format= "json",
    temperature= 0,
    timestamp_granularities= [],
)
print(resp)

Замените rk_live_... на ваш ключ из кабинета.

О провайдере: OpenAI

OpenAI — американская компания, создатель ChatGPT и серии моделей GPT. Один из лидеров индустрии генеративного ИИ. Модели OpenAI отличаются балансом скорости, качества и широкой поддержкой инструментов (function calling, vision, structured output).

Официальный сайт: https://openai.com

Документация модели у вендора: https://platform.openai.com/docs/api-reference/audio