Распознавание изображений
string (VisionModelEnum)
Enum: "amazon/nova-lite-v1" "amazon/nova-pro-v1" "anthropic/claude-3-haiku" "anthropic/claude-3-opus" "anthropic/claude-3-sonnet" "anthropic/claude-3.5-sonnet" "anthropic/claude-3.7-sonnet" "anthropic/claude-3.7-sonnet-thinking" "anthropic/claude-opus-4" "anthropic/claude-opus-4.1" "anthropic/claude-sonnet-4" "google/gemini-2.0-flash-001" "google/gemini-2.0-flash-lite-001" "google/gemini-2.5-flash" "google/gemini-2.5-flash-lite" "google/gemini-2.5-pro" "google/gemini-flash-1.5" "google/gemini-flash-1.5-8b" "google/gemini-pro-1.5" "google/gemma-3-27b-it" "meta-llama/llama-3.2-90b-vision-instruct" "meta-llama/llama-4-maverick" "meta-llama/llama-4-scout" "mistralai/mistral-small-3.1-24b" "openai/gpt-4.1" "openai/gpt-4.1-mini" "openai/gpt-4.1-nano" "openai/gpt-4o" "openai/gpt-4o-mini" "openai/gpt-5-chat" "openai/gpt-5-mini" "openai/gpt-5-nano" "openai/o1" "openai/o3" "openai/o4-mini" "openai/o4-mini-high" "qwen/qwen-2-vl-72b-instruct" "qwen/qwen2.5-vl-32b-instruct" "x-ai/grok-2-vision-1212" "x-ai/grok-4" "x-ai/grok-vision-beta"
Список моделей с поддержкой Vision (OCR)
Нейросети могут обрабатывать изображения и дополнять ответ контекстом с изображений.
С помощью Vision нейросети могут:
- понимать текст
- различать объекты
- считывать количество предметов
- считывать диаграммы и графики
- распознать человеческие эмоции
- находить различия и дефекты
Как отправить запрос через API
- Сгенерировать API_TOKEN
- Отправить запрос на
https://api.smartbuddy.ru/v1/chat/completions
(см. примеры ниже):
- По результатам запроса, ваши изображения будут переведены провайдером в стоимость токенов из поля ответа
usage.total_tokens
(см. пример ответа).