Война моделей 2025–2026: кто реально решает задачи бизнеса
Продолжаю серию. Если первая часть была про то, КАК изменилась работа с ИИ, то здесь — про то, ЧЕМ работать. За полгода таблица лидеров перетасовалась так, что вчерашние короли оказались в роли догоняющих. Рассказываю без рекламы, на основе собственных тестов и того, что реально крутится у нас в работе.
Gemini вырвался вперёд
К концу 2025-го Google отыграл и продуктовое, и технологическое преимущество. Линейка Gemini 3 закрывает у нас процентов девяносто задач — от текстов до графики, и даёт самый высокий КПД.
Отдельно удивила младшая модель. По ряду бенчмарков Gemini 3 Flash идёт вровень со старшей 3 Pro, а где-то и обходит её — при цене лоукостера, порядка полудоллара за миллион токенов. Раньше для сложного я всегда брал Pro, мирясь с ценой и задержками. Теперь этот барьер стёрт, и для бизнеса это прямой путь срезать расходы на API в разы без потери качества. Часть нагрузки мы сразу перекинули на Flash.
А на прикладных задачах Gemini просто рвёт конкурентов. Классический тест — распознать врачебные каракули с рецепта. Я прогнал реальный рецепт через все модели (эталон проверяла жена-врач). Gemini выдал практически идеальный текст, сдулся лишь на паре слов в конце. Остальные «включали интеллект» там, где не просили, и фантазировали — один из конкурентов вообще выдал бред про «билеты» и «мозоли». Пока все шумят об инновациях, Gemini без пафоса решает сложные прикладные задачи.
Google за декабрь буквально завалил рынок обновлениями: Super Gems (конструктор мини-приложений и агентов прямо в чате, без кода), интеграция NotebookLM в Gemini, генерация музыки, локальные модели Gemma для работы без интернета. Темп — бешеный.
Claude — выбор профи, особенно для кода
Заслуженное второе место. Для серьёзной работы с кодом и локальными файлами Claude Code — инструмент номер один. Когда модель сама находит и правит баги в реальных репозиториях с результатом за 60% на профильном тесте SWE-bench — это уже не игрушка, а коллега.
Добавьте к этому окно контекста в миллион токенов по умолчанию, и получаете ассистента, которому можно скормить целый проект. За полгода Claude Code оброс инструментами: нативный поиск, навыки-«скиллы», управление с телефона, и даже фоновые субагенты. Мы держим Claude именно под инженерную рутину.
Показательная история: разработчики Spotify, по их собственным словам, к началу 2026-го практически перестали писать код руками — основную часть делают агенты, а человек ревьюит и направляет. Это не будущее, это уже настоящее.
Дёшево и открыто: китайцы наступают
Отдельная история — открытые и дешёвые модели. Китайскую GLM мы давно гоняем «под капотом» Claude Code через OpenRouter: стоит копейки, а инструкции слушает на удивление хорошо, не хуже топов. Когда вышла новая версия с заявкой обогнать всех в кодинге (84.8 балла на LiveCodeBench и первое место среди open-source в слепых тестах), стало окончательно ясно — монополии не будет.
Плюс бесплатные API: например, у NVIDIA можно получить доступ к набору моделей даром. Порог входа в эксперименты упал почти до нуля — пробуй, сравнивай, выбирай.
OpenAI сдаёт позиции
А вот ChatGPT, на мой взгляд, разочаровывает. Был безоговорочным лидером, но к концу 2025-го отдал технологическое и продуктовое преимущество Google. Я сам свернул их подписку после серии неудачных версий — не из принципа, просто перестал решать мои задачи лучше других. Держу годовой резервный доступ через сторонний сервис чисто как страховку.
OpenAI пытается отвечать — выкатили свой консольный агент Codex как ответ Claude Code, экспериментируют с железом (партнёрство с Cerebras). Но инициатива сейчас не у них.
Как мы выбираем модель под задачу
Никакой лояльности. У нас под рукой несколько моделей, и берём ту, что решает конкретную задачу сегодня дешевле и точнее: тексты и графику — на Gemini, инженерную рутину и код — на Claude, массовую дешёвую автоматизацию — на GLM, фактчекинг — на сервисе с ссылками на источники.
Вечных королей здесь нет. Вспомните, где была половина этих сервисов год назад. Поэтому главный навык — не «знать одну модель», а уметь быстро перекладывать задачу на ту, что выгоднее.
Главный вывод, который я бы выбил в граните: не привязывайтесь к брендам. Работайте тем, что решает задачу сегодня. Мы в «АйТи-Фреш» именно так и поступаем — и клиентам советуем то же. В финальной части серии — про агентов, их новые риски (включая малварь в скиллах) и про то, куда всё это катится в горизонте пары лет.
«АйТи-Фреш» — IT-аутсорсинг для юрлиц в Москве. Разберём ваш случай.
Бесплатная консультация →


