Текстовая модель · minimax

MiniMax M3

minimax-m3

MiniMax M3 — текстовая модель от MiniMax, доступная через единый Ranvik API. Контекстное окно — 1M токенов. Максимум выходных токенов за один запрос — 128k. Поддерживаемые возможности: function_calling, prompt_caching, reasoning, streaming, vision.

от 200 ₽ / 1M

Карточка модели

Технические характеристики

МодальностьТекстовая модель

Провайдерminimax

Контекст1 000 000 токенов

Max output128 000 токенов

СтатусАктивна

ID для запросовminimax-m3

Возможности

Prompt caching— Повторно используемые префиксы (системный промпт, документы) кэшируются — цена в 5-10× ниже.

Зачем

Если ты отправляешь один и тот же системный промпт + документы на каждом запросе — модель повторно тратит compute на их обработку. Prompt caching сохраняет эти токены и заряжает 10× меньше при попадании.

Базовая формула экономии:

Cache write — обычно 1.25× цены input (5-минутный TTL) или 2× (1-часовой).
Cache hit — 0.1× цены input.
Окупается с 2-3 повторений того же префикса в течение TTL.

Что кэшируется

Префикс должен быть идентичным byte-в-byte: системный промпт, статические документы, фиксированные few-shot примеры. Динамическая часть (юзер-промпт, переменные) идёт ПОСЛЕ кэшированной.

Когда использовать

RAG: документы в context каждого запроса (кэшируй документы).
Агенты: длинная инструкция системы (кэшируй её).
Few-shot prompting: фиксированные примеры (кэшируй блок примеров).

Streaming (SSE)— Получение ответа по мере генерации — токен за токеном через Server-Sent Events.

Как работает

Передай stream: true в теле запроса — сервер вернёт SSE-поток с заголовком content-type: text/event-stream. Каждый чанк — строка вида data: {...}\n\n. Конец потока — data: [DONE]\n\n.

curl -N https://api.ranvik.ru/v1/chat/completions \
  -H "Authorization: Bearer rk_live_..." \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5",
    "messages": [{"role": "user", "content": "Привет"}],
    "stream": true,
    "stream_options": {"include_usage": true}
  }'

Каждый чанк содержит choices[0].delta — частичные данные. Последний чанк перед [DONE] (если включить stream_options.include_usage: true) содержит usage с реальным числом токенов — используй для биллинг-учёта на клиенте.

Когда использовать

Чат-интерфейсы, где важна перцептивная скорость отклика.
Длинные ответы (> 1000 токенов) — пользователь видит прогресс.
Streaming tool-calls — delta.tool_calls[i].function.arguments приходят инкрементально.

Когда НЕ использовать

Backend-to-backend интеграции, где нужен только финальный JSON — добавляет парсинг SSE без выгод.
Когда обязательно знать стоимость до отправки в БД — без include_usage затраты неизвестны.

Vision (анализ изображений)— Картинки на вход вместе с текстом — OCR, распознавание объектов, описание сцен, анализ графиков.

Как передать изображение

Через массив content в сообщении вместо строки. Поддерживается URL и base64 (data URI).

{
  "model": "gpt-5",
  "messages": [{
    "role": "user",
    "content": [
      {"type": "text", "text": "Что на этой схеме?"},
      {"type": "image_url", "image_url": {"url": "https://.../diagram.png"}}
    ]
  }]
}

Для base64: "url": "data:image/png;base64,iVBOR...". Размер ограничен ~20MB.

Биллинг изображений

Картинка считается как input-токены — точное число зависит от размера и detail. Грубо: 512×512 ≈ 250 токенов, 2048×2048 ≈ 1500. Минимизируй размер если нужно много кадров.

Что НЕ умеют vision-модели

Точные измерения (расстояния, размеры в пикселях).
Распознавание текста на сложных шрифтах при низком DPI — лучше OCR-модель.
Деанонимизация лиц / людей — модели отказываются.

Function Calling
Prompt Caching
Reasoning
Streaming
Vision

Цены

Единица	Цена
за 1М cache read · <= 512k	39.9 ₽
за 1М cache read · > 512k	79.8 ₽
за 1М input · <= 512k	200 ₽
за 1М input · > 512k	399 ₽
за 1М output · <= 512k	798 ₽
за 1М output · > 512k	1 596 ₽

Цены указаны в рублях. Списываются с баланса проекта при каждом успешном запросе.

Поддерживаемые параметры

Параметры передаются вендору как есть (pure proxy) — мы не валидируем их у себя на стороне. Если вендор не примет — вернётся его ошибка.

Параметр	Тип	Диапазон / values	Default	Описание
`messages`required	array	—	—	OpenAI-compatible chat messages. MiniMax M3 accepts text, image, and video context through supported client formats.
`temperature`	number	min: 0 · max: 2	1	—
`top_p`	number	min: 0 · max: 1	1	—
`max_tokens`	integer	min: 1	—	—
`stream`	boolean	—	false	—
`stop`	array of strings	—	—	—
`presence_penalty`	number	min: -2 · max: 2	0	—
`frequency_penalty`	number	min: -2 · max: 2	0	—
`tools`	array	—	—	OpenAI function/tool definitions for agentic workflows.
`tool_choice`	string	—	—	auto / required / none / function selection object.
`response_format`	object	—	—	OpenAI-compatible response format.
`service_tier`	enum	standard, priority	standard	MiniMax priority tier is vendor-gated and has separate higher pricing; standard is used by default.

Пример запроса

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.chat.completions.create(
    model="minimax-m3",
    messages=[{"role": "user", "content": "Привет!"}],
)
print(resp.choices[0].message.content)

Замените rk_live_... на ваш ключ из кабинета.

О провайдере: MiniMax

MiniMax — китайская AI-лаборатория. Известна моделями TTS высокого качества (Speech) с поддержкой многоязычной речи и клонирования голоса, а также видеогенератором Hailuo.

Официальный сайт: https://minimaxi.com

Документация модели у вендора: https://www.minimax.io/models/text/m3