Whisper-1

ПровайдерOpenai

whisper-1 — генерация аудио-модель от Openai.

Что умеет Whisper-1

Базовый набор возможностей модели — см. документацию вендора.

Стоимость

за секунду

0.033 ₽

Цены указаны в рублях и списываются с баланса проекта за успешные запросы. Надбавки (+) суммируются с базовой ставкой.

Технические характеристики

Vendor

openai

Modality

audio

Параметры запроса

Параметры, которые принимает модель. Передаются в теле запроса.

ПараметрТипДиапазон / значенияПо умолчаниюОписание

filereq

string

—

—

Аудио-файл для транскрипции (передаётся как multipart/form-data, НЕ JSON). Поддерживаемые форматы: flac, mp3, mp4, mpeg, mpga, m4a, ogg, wav, webm.

language

string

—

—

Язык аудио в формате ISO-639-1 (en, ru, ja и т.д.). Указание языка улучшает точность и latency.

5 примеров

Примеры

en

ru

ja

zh

es

prompt

string

—

—

Опциональный текст для guidance — стилистическая подсказка модели или продолжение предыдущего аудио-сегмента. Должен быть на том же языке, что и аудио.

response_format

enum

json, text, srt, verbose_json, vtt

json

Формат ответа. json — стандарт, text — только текст, srt/vtt — субтитры с таймкодами, verbose_json — расширенный JSON с языком/длительностью/сегментами.

temperature

number

min: 0 · max: 1

0

Sampling temperature 0..1. 0 — детерминированный, выше — более случайный. При 0 модель использует log-probability adaptive boost.

timestamp_granularities

array of strings

—

—

Уровень таймкодов: word и/или segment. ТРЕБУЕТ response_format=verbose_json. word — дополнительная latency. Можно передать оба значения.

3 примеров

Примеры

[
  "word"
]

[
  "segment"
]

[
  "word",
  "segment"
]

Параметры ответа

Что возвращает API. У медиа-моделей формат зависит от режима: sync — сразу результат, async — task_id для опроса через GET /v1/tasks/{id}.

Sync (HTTP 200)

Для TTS короткого input: HTTP 200, **binary audio** (Content-Type: audio/mpeg / audio/wav / ...). Это НЕ JSON — это байты файла.

Binary response. Content-Type: audio/mpeg, audio/wav, audio/opus, audio/ogg

Async (HTTP 202)

Если is_async_only=1 (music gen) или async:true в запросе. HTTP 202 + JSON.

ПолеТипЗначенияОписание

id

string

—

task_id для GET /v1/tasks/{id}.

object

string

audio.task

status

enum

queued, processing, completed, failed

model

string

—

created

integer

—

Опрос статуса (GET /v1/tasks/{id})

GET /v1/tasks/{id}.

ПолеТипЗначенияОписание

id

string

—

status

enum

queued, processing, completed, failed, canceled

modality

string

audio

model

string

—

data

array

—

Каждый элемент:

url— string · CDN URL .mp3 / .wav. Для Suno music — 1-2 файла (варианты трека).

error

string

—

Пример кода

whisper-1_example.py

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.audio.speech.create(
    model= "whisper-1",
    file= "value",
    language= "value",
    prompt= "Пример промпта",
    response_format= "json",
    temperature= 0,
    timestamp_granularities= [],
)
print(resp)

Полная документация модели