Gemini 2.5 Flash

1M context

ПровайдерGoogle

gemini-2.5-flash — текстовая модель-модель от Google.

document_understandingfunction_callingstreamingvisionweb_search

Попробуйте прямо здесь

Gemini 2.5 Flash Открыть в Playground

Что умеет Gemini 2.5 Flash

Document Understanding
Function Calling
Streaming
Vision
Веб-поиск

Стоимость

за 1М cache read

9.97 ₽

за 1М input

99.75 ₽

за 1М output

831 ₽

web_search

11.64 ₽

Цены указаны в рублях и списываются с баланса проекта за успешные запросы. Надбавки (+) суммируются с базовой ставкой.

Технические характеристики

Контекст

1,048,576

токенов

Output

65,536

токенов

Vendor

google

Modality

text

Параметры запроса

Параметры, которые принимает модель. Передаются в теле запроса.

ПараметрТипДиапазон / значенияПо умолчаниюОписание

max_completion_tokens

integer

min: 1 · max: 65536

8192

Максимум токенов в ответе. OpenAI-compat (/v1/chat/completions): max_completion_tokens (max_tokens тоже принимается). · Нативный generateContent: maxOutputTokens (в generationConfig).

temperature

number

min: 0 · max: 2

1

Креативность 0–2. OpenAI-compat: temperature. · Нативный generateContent: temperature (в generationConfig).

top_p

number

min: 0 · max: 1

0.95

Nucleus sampling. OpenAI-compat: top_p. · Нативный generateContent: topP (в generationConfig).

stop

array of strings

—

—

Стоп-последовательности (до 5). OpenAI-compat: stop. · Нативный generateContent: stopSequences (в generationConfig).

seed

integer

—

—

Сид для воспроизводимости. OpenAI-compat: seed. · Нативный generateContent: seed (в generationConfig).

response_format

object

—

—

Структурированный вывод: {type: json_object} или {type: json_schema, json_schema: {...}}. OpenAI-compat: response_format. · Нативный generateContent: responseMimeType + responseSchema (в generationConfig).

reasoning_effort

enum

none, low, medium, high

—

Уровень reasoning/thinking (Gemini 2.5/3.x). OpenAI-compat: reasoning_effort. · Нативный generateContent: thinkingConfig (в generationConfig).

tools

array

—

—

Function calling в OpenAI-формате: массив {type: function, function: {...}}. OpenAI-compat: tools. · Нативный generateContent: tools (нативный Google-формат function declarations).

tool_choice

string

—

—

auto | none | required | {type: function, function: {name: ...}}. OpenAI-compat: tool_choice. · Нативный generateContent: toolConfig.functionCallingConfig.

stream

boolean

—

false

SSE-стриминг. OpenAI-compat: stream:true на /v1/chat/completions. · Нативно — отдельный endpoint :streamGenerateContent (в generateContent поля stream нет).

extra_body

object

—

—

Только OpenAI-compat: Gemini-only фичи вне OpenAI-стандарта — {google: {thinking_config, safety_settings, cached_content, ...}}. В нативном generateContent эти поля пишутся прямо в тело запроса (generationConfig / safetySettings / cachedContent), без обёртки extra_body.

Пример кода

gemini-2.5-flash_example.py

from openai import OpenAI

client = OpenAI(api_key="rk_live_...", base_url="https://api.ranvik.ru/v1")
resp = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[{"role": "user", "content": "Привет!"}],
)
print(resp.choices[0].message.content)

# ── С веб-поиском ──
resp = client.chat.completions.create(
    model="gemini-2.5-flash",
    messages=[{"role": "user", "content": "Что нового в AI сегодня?"}],
    tools=[{"type": "web_search"}],
)
print(resp.choices[0].message.content)

Полная документация модели