Распознавание изображений

string (VisionModelEnum)

Enum: "amazon/nova-lite-v1" "amazon/nova-pro-v1" "anthropic/claude-3-haiku" "anthropic/claude-3-opus" "anthropic/claude-3-sonnet" "anthropic/claude-3.5-sonnet" "anthropic/claude-3.7-sonnet" "anthropic/claude-3.7-sonnet-thinking" "anthropic/claude-opus-4" "anthropic/claude-opus-4.1" "anthropic/claude-sonnet-4" "google/gemini-2.0-flash-001" "google/gemini-2.0-flash-lite-001" "google/gemini-2.5-flash" "google/gemini-2.5-flash-lite" "google/gemini-2.5-pro" "google/gemini-flash-1.5" "google/gemini-flash-1.5-8b" "google/gemini-pro-1.5" "google/gemma-3-27b-it" "meta-llama/llama-3.2-90b-vision-instruct" "meta-llama/llama-4-maverick" "meta-llama/llama-4-scout" "mistralai/mistral-small-3.1-24b" "openai/gpt-4.1" "openai/gpt-4.1-mini" "openai/gpt-4.1-nano" "openai/gpt-4o" "openai/gpt-4o-mini" "openai/gpt-5-chat" "openai/gpt-5-mini" "openai/gpt-5-nano" "openai/o1" "openai/o3" "openai/o4-mini" "openai/o4-mini-high" "qwen/qwen-2-vl-72b-instruct" "qwen/qwen2.5-vl-32b-instruct" "x-ai/grok-2-vision-1212" "x-ai/grok-4" "x-ai/grok-vision-beta"

Список моделей с поддержкой Vision (OCR)

"amazon/nova-lite-v1"

Нейросети могут обрабатывать изображения и дополнять ответ контекстом с изображений.

С помощью Vision нейросети могут:

понимать текст
различать объекты
считывать количество предметов
считывать диаграммы и графики
распознать человеческие эмоции
находить различия и дефекты

Как отправить запрос через API

Сгенерировать API_TOKEN
Отправить запрос на https://api.smartbuddy.ru/v1/chat/completions (см. примеры ниже):
По результатам запроса, ваши изображения будут переведены провайдером в стоимость токенов из поля ответа usage.total_tokens (см. пример ответа).

Отправка изображений в кодировке base64

Если у вас локально есть изображение или набор изображений, вы можете передать их в модель в формате, закодированном по алгоритму base64.

import base64
import requests

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = "path_to_your_image.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  'Content-Type': 'application/json',
  'Accept': 'application/json',
  'Authorization': 'Bearer API_TOKEN'
}

payload = {
  "model": "openai/gpt-4o-mini",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "What’s in this image?"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "base64_image"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.smartbuddy.ru/v1/chat/completions", headers=headers, json=payload)

print(response.json())

Отправка прямой ссылки на изображение

info

Ссылка в параметре image_url должна быть видна из Интернета.

import requests
import json

url = "https://api.smartbuddy.ru/v1/chat/completions"

payload = json.dumps({
  "model": "google/gemini-flash-1.5",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Расскажи что на картинке"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://cdn.trinixy.ru/uploads/posts/2017-09/1506092132_kartinki_s_nadpisiami_40.jpg"
          }
        }
      ]
    }
  ]
})
headers = {
  'Content-Type': 'application/json',
  'Accept': 'application/json',
  'Authorization': 'Bearer API_TOKEN'
}

response = requests.request("POST", url, headers=headers, data=payload)

print(response.text)

Пример ответа

{
    "id": "gen-TDeyEFhG1o8UvKkWxWrLvIGsDxV7",
    "model": "google/gemini-flash-1.5",
    "object": "chat.completion",
    "created": 1725899286,
    "choices": [
        {
            "logprobs": null,
            "finish_reason": "STOP",
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "На картинке изображена спящая кошка на клавиатуре. Подпись на картинке гласит \"Сон для слабаков\".  ",
                "refusal": ""
            }
        }
    ],
    "usage": {
        "prompt_tokens": 269,
        "completion_tokens": 28,
        "total_tokens": 297
    }
}

Как отправить запрос через API​

Отправка изображений в кодировке base64​

Отправка прямой ссылки на изображение​

Пример ответа​

Как отправить запрос через API

Отправка изображений в кодировке base64

Отправка прямой ссылки на изображение

Пример ответа