Текстовая модель · deepseek

DeepSeek V4 Flash

deepseek-v4-flash

DeepSeek V4 Flash — текстовая модель от deepseek, доступная через единый Ranvik API. Контекстное окно — 1M токенов. Максимум выходных токенов за один запрос — 393k. Поддерживаемые возможности: streaming, function_calling, json_mode, prompt_caching, reasoning.

от 39.2 ₽ / 1M

Технические характеристики

МодальностьТекстовая модель
Провайдерdeepseek
Контекст1M токенов
Max output393k токенов
СтатусАктивна
ID для запросовdeepseek-v4-flash

Возможности

Streaming (SSE)— Получение ответа по мере генерации — токен за токеном через Server-Sent Events.

Как работает

Передай stream: true в теле запроса — сервер вернёт SSE-поток с заголовком content-type: text/event-stream. Каждый чанк — строка вида data: {...}\n\n. Конец потока — data: [DONE]\n\n.

curl -N https://api.ranvik.ru/v1/chat/completions \
  -H "Authorization: Bearer rk_live_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5",
    "messages": [{"role": "user", "content": "Привет"}],
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

Каждый чанк содержит choices[0].delta — частичные данные. Последний чанк перед [DONE] (если включить stream_options.include_usage: true) содержит usage с реальным числом токенов — используй для биллинг-учёта на клиенте.

Когда использовать

  • Чат-интерфейсы, где важна перцептивная скорость отклика.
  • Длинные ответы (> 1000 токенов) — пользователь видит прогресс.
  • Streaming tool-calls — delta.tool_calls[i].function.arguments приходят инкрементально.

Когда НЕ использовать

  • Backend-to-backend интеграции, где нужен только финальный JSON — добавляет парсинг SSE без выгод.
  • Когда обязательно знать стоимость до отправки в БД — без include_usage затраты неизвестны.
Prompt caching— Повторно используемые префиксы (системный промпт, документы) кэшируются — цена в 5-10× ниже.

Зачем

Если ты отправляешь один и тот же системный промпт + документы на каждом запросе — модель повторно тратит compute на их обработку. Prompt caching сохраняет эти токены и заряжает 10× меньше при попадании.

Базовая формула экономии:

  • Cache write — обычно 1.25× цены input (5-минутный TTL) или 2× (1-часовой).
  • Cache hit — 0.1× цены input.
  • Окупается с 2-3 повторений того же префикса в течение TTL.

Что кэшируется

Префикс должен быть идентичным byte-в-byte: системный промпт, статические документы, фиксированные few-shot примеры. Динамическая часть (юзер-промпт, переменные) идёт ПОСЛЕ кэшированной.

Когда использовать

  • RAG: документы в context каждого запроса (кэшируй документы).
  • Агенты: длинная инструкция системы (кэшируй её).
  • Few-shot prompting: фиксированные примеры (кэшируй блок примеров).
  • Streaming
  • Function Calling
  • JSON Mode
  • Prompt Caching
  • Reasoning

Цены

ЕдиницаЦена
за 1М cache read0.784 ₽
за 1М input39.2 ₽
за 1М output78.4 ₽

Цены указаны в рублях. Списываются с баланса проекта при каждом успешном запросе.

Поддерживаемые параметры

Параметры передаются вендору как есть (pure proxy) — мы не валидируем их у себя на стороне. Если вендор не примет — вернётся его ошибка.

ПараметрТипДиапазон / valuesDefaultОписание
max_tokensintegermin: 1 · max: 3932164096 Лимит output. v4 поддерживает до 384K.
temperaturenumbermin: 0 · max: 21 Креативность 0-2.
top_pnumbermin: 0 · max: 11 Nucleus sampling.
response_formatobject {type:"json_object"} для JSON mode (требует упоминания JSON в промпте).
stoparray До 16 строк-стопов.
toolsarray До 128 функций.
tool_choiceobject none | auto | required | {type:"function",function:{name:"X"}}.
logprobsbooleanfalse
top_logprobsintegermin: 0 · max: 20
thinkingobject {type:"enabled"|"disabled"} — переключает reasoning-режим. По умолчанию disabled на flash, enabled на pro.
user_idstringmax: 512 ID юзера, до 512 символов [a-zA-Z0-9-_].
streambooleanfalse
messagesrequiredarray Массив сообщений OpenAI-compatible: [{role: "system"|"user"|"assistant", content: string}]. У DeepSeek Reasoner — поля reasoning_content в response.
примеры значений
Примеры
[
  {
    "role": "system",
    "content": "You are a helpful assistant."
  },
  {
    "role": "user",
    "content": "Привет!"
  }
]
frequency_penaltynumbermin: -2 · max: 20 Penalty за повторение токенов (-2..2).
presence_penaltynumbermin: -2 · max: 20 Penalty за повторение тем (-2..2).
logit_biasobject Map token_id → bias (-100..100).

Пример запроса

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.chat.completions.create(
    model="deepseek-v4-flash",
    messages=[{"role": "user", "content": "Привет!"}],
)
print(resp.choices[0].message.content)

Замените rk_live_... на ваш ключ из кабинета.