Whisper-1
whisper-1 — генерация аудио-модель от Openai.
Что умеет Whisper-1
Базовый набор возможностей модели — см. документацию вендора.
Стоимость
за секунду
0.028 ₽
Цены указаны в рублях и списываются с баланса проекта за успешные запросы. Надбавки (+) суммируются с базовой ставкой.
Технические характеристики
Vendor
openai
Modality
audio
Параметры запроса
Параметры, которые принимает модель. Передаются в теле запроса.
ПараметрТипДиапазон / значенияПо умолчаниюОписание
filereqstring
—
—Аудио-файл для транскрипции (передаётся как multipart/form-data, НЕ JSON). Поддерживаемые форматы: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.
languagestring
—
—Язык аудио в формате ISO-639-1 (en, ru, ja и т.д.). Указание языка улучшает точность и latency.
5 примеров
Примеры
en
ru
ja
zh
es
promptstring
—
—Опциональный текст для guidance — стилистическая подсказка модели или продолжение предыдущего аудио-сегмента. Должен быть на том же языке, что и аудио.
response_formatenum
json, text, srt, verbose_json, vtt
jsonФормат ответа. json — стандарт, text — только текст, srt/vtt — субтитры с таймкодами, verbose_json — расширенный JSON с языком/длительностью/сегментами.
temperaturenumber
min: 0 · max: 1
0Sampling temperature 0..1. 0 — детерминированный, выше — более случайный. При 0 модель использует log-probability adaptive boost.
timestamp_granularitiesarray of strings
—
—Уровень таймкодов: word и/или segment. ТРЕБУЕТ response_format=verbose_json. word — дополнительная latency. Можно передать оба значения.
3 примеров
Примеры
[ "word" ]
[ "segment" ]
[ "word", "segment" ]
Параметры ответа
Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.
Sync (HTTP 200)
Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.
Binary response. Content-Type:
audio/mpeg, audio/wav, audio/opus, audio/ogg Async (HTTP 202)
Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.
ПолеТипЗначенияОписание
idstring
—
task_id для GET /v1/tasks/{id}.
objectstring
audio.task
statusenum
queued, processing, completed, failed
modelstring
—
createdinteger
—
Опрос статуса (GET /v1/tasks/{id})
GET /v1/tasks/{id}.
ПолеТипЗначенияОписание
idstring
—
statusenum
queued, processing, completed, failed, canceled
modalitystring
audio
modelstring
—
dataarray
—
Каждый элемент:
url— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).
errorstring
—
Пример кода
whisper-1_example.py
from openai import OpenAI
client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
model= "whisper-1",
file= "value",
language= "value",
prompt= "Пример промпта",
response_format= "json",
temperature= 0,
timestamp_granularities= [],
)
print(resp)