Кратко: это не просто «чуть более умная модель»
Самое полезное в исходной статье — то, что она не описывает Composer 2.5 как расплывчатое обновление. Она рассматривает его скорее как отчет о обучении и продукте.
Это важно, потому что настоящая суть вот в чем:
Composer 2.5 стал лучше не только благодаря своему базовому чекпойнту, но и потому, что Cursor одновременно продвинул методику обучения, масштаб данных, инженерные решения для оптимизатора и продуктовую форму.
Это гораздо более интересное утверждение, чем «модель стала лучше».
Что на самом деле представляет собой Composer 2.5
В начале статьи четко говорится:
Composer 2.5 теперь доступен в Cursor.
Также подчеркивается, что это не полностью новая базовая модель. Composer 2.5 по-прежнему построен на том же семействе открытых чекпойнтов, что и Composer 2, а именно на Kimi K2.5 от Moonshot.
Поэтому ключевой вопрос становится таким:
насколько далеко Cursor может продвинуть агентный рабочий процесс программирования поверх сильного открытого чекпойнта?
Матрица обновлений сосредоточена на длительных задачах, надежности и совместной работе
Первая крупная таблица в статье сравнивает Composer 2 и 2.5:
Параметр | Composer 2 | Composer 2.5 | Заявленный прирост |
Устойчивость в длительных задачах | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
Следование сложным инструкциям | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
Плавность совместной работы | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
Согласованность стиля кода | средняя | значительно улучшена | качественный скачок |
Калибровка коммуникации | средняя | значительно улучшена | качественный скачок |
Точность вызова инструментов | средняя | высокая | существенный прирост |
Восстановление после ошибок | слабее | сильное | качественный скачок |
Важно не какое-то отдельное процентное значение. Важен характер самих категорий:
длительные задачи
сложные инструкции
плавность совместной работы
согласованность стиля
поведение при восстановлении
Так Cursor пытается сделать так, чтобы Composer ощущался скорее как надежный напарник, а не просто как быстрый автодополнитель кода.
Первый технический скачок: направленное RL с текстовой обратной связью
Первый глубокий технический раздел статьи посвящен направленному RL с использованием текстовой обратной связи.
Проблема, которую оно пытается решить, хорошо знакома: когда rollout становятся чрезвычайно длинными, назначение заслуг в традиционном RL становится запутанным.
Модель может знать, что общий результат был хорошим или плохим, но может не понимать точно, какой локальный выбор привел к этому результату.
Это становится особенно болезненным, когда нужно подавить очень конкретные локальные модели поведения, такие как:
неправильные вызовы инструментов
запутанные объяснения
смещение стиля
слабое соответствие диалоговому контексту
Традиционное RL и направленное RL с текстовой обратной связью
Сравнение | Традиционное RL | Направленное RL с текстовой обратной связью |
Гранулярность обратной связи | глобальная | локальная |
Назначение заслуг | шумное | точное |
Оптимизация локального поведения | сложная | эффективная |
Обучающий сигнал | разреженный | плотный |
Наиболее подходящий тип задач | более простые задачи | длинные, сложные задачи |
Основная идея проста:
если данный шаг мог быть лучше, привяжите обратную связь непосредственно к этому шагу.
Это превращает расплывчатый штраф в конце rollout во что-то более похожее на целенаправленную коррекцию поведения.
Второй скачок: масштабирование синтетических задач в 25 раз
Вторая важная тема — резкое расширение синтетических задач.
В статье говорится, что Composer 2.5 использовал примерно в 25 раз больше синтетических задач, чем Composer 2.
Это важно, потому что когда модель становится сильнее, статические наборы задач перестают быть для нее вызовом. Обучающие данные тоже должны становиться сложнее и динамичнее.
Сравнение масштаба синтетических данных
Метрика | Composer 2 | Composer 2.5 | Рост |
Синтетические задачи | базовый уровень | 25x базового уровня | 25x |
Настройка сложности | статическая | динамическая | качественный скачок |
Охват реальных кодовых баз | ограниченный | гораздо шире | значительный прирост |
Один особенно полезный метод, описанный в материале, — это удаление функций:
взять реальную кодовую базу с тестами
удалить конкретную возможность
сохранить репозиторий в рабочем состоянии
попросить модель восстановить недостающую функциональность
использовать тесты как сигнал вознаграждения
Это хорошо подходит для кодинговых агентов, потому что обучает их поведению, гораздо более близкому к реальной разработке:
восстанавливать функциональность
рассуждать о структуре
работать в рамках тестовых ограничений
работа внутри существующих проектов
В статье также отмечается недостаток: взлом вознаграждения становится более серьезной проблемой по мере масштабирования генерации синтетических задач.
Третий скачок: Muon, шардирование и HSDP нужны для того, чтобы всю систему можно было обучать
Если первые два раздела посвящены тому, чему обучать и как направлять поведение, то третий раздел — о том, как заставить эту обучающую систему действительно работать.
Здесь в статье обсуждаются:
оптимизатор Muon
шардированный Muon
двухсеточный HSDP
Большинству читателей не нужны все системные детали. Достаточно понять ключевой момент:
более длинные rollout-запуски, более крупные пулы синтетических задач и более детализированная поведенческая обратная связь — всё это требует более мощной инфраструктуры обучения.
Архитектурный взгляд: Cursor строит полный конвейер для кодинговых агентов
В конце статья снова переходит к картине на уровне системы.
Главный вывод в том, что Cursor не просто пытается выпустить модель, которая дает более качественные ответы. Компания собирает сквозной стек из:
открытых контрольных точек
методов RL
синтетические задачи
систем параллельного обучения
дифференциации продуктовых уровней
и доводит всё это до опыта работы в IDE.
Именно поэтому Composer 2.5 ощущается как нечто более существенное, чем поверхностное повышение версии.
Цены и тариф Fast раскрывают продуктовую стратегию
Раздел о ценах — одна из самых полезных практических частей статьи.
Таблица цен
Уровень | Цена входных токенов | Цена выходных токенов | Относительная стоимость | Позиционирование |
Стандартный | $0.50 / миллион | $2.50 / миллион | базовый уровень | полные интеллектуальные возможности, высокая ценность |
Быстрый | $3.00 / миллион | $15.00 / миллион | 6x |
Сравнение стоимости быстрого уровня
Модель | Вход / миллион | Выход / миллион | Интеллект | Ценность |
Composer 2.5 Fast | $3.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
GPT-4o Fast | $5.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Claude 3.5 Fast | $3.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Gemini 1.5 Pro Fast | $3.50 | $10.50 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
В статье также отмечаются две детали продукта:
Fast используется по умолчанию
в первую неделю предоставляется двойной объем использования
Это многое говорит о продуктовой концепции Cursor. Компания продает не только модель. Она продает рабочую среду разработки, которая ощущается быстрой и надежной.
Сотрудничество со SpaceXAI — самая смелая часть, ориентированная на будущее
Финальный раздел, посвященный будущему, смещает фокус к следующему поколению обучения.
В статье это сотрудничество описывается так:
в 10 раз больше совокупных вычислений
мощность, эквивалентная 1 миллиону H100
инфраструктура на базе Colossus 2
переход от дообучения на основе контрольных точек к более полноценно самостоятельному обучению
Таблица планирования следующего поколения
Метрика | Текущее состояние (Composer 2.5) | Следующее поколение | Заявленный скачок |
Совокупные вычисления | 1x | 10x | 10x |
Мощность, эквивалентная H100 | базовый уровень | 1 миллион | скачок на порядок |
Инфраструктура | существующие кластеры | Colossus 2 | новая архитектура |
Подход к обучению | дообучение на основе открытой контрольной точки | более полноценно самообучаемый подход | качественный сдвиг |
Очевидно, это также часть более широкого нарратива компании, но направление здесь вполне ясное:
Cursor не хочет оставаться лишь тонким слоем IDE поверх чужой модели.
Почему это важно для команд в стиле We0
Легко прочитать такую историю и решить, что она важна только для разработчиков.
Но более сильные агенты для кодинга также влияют на:
скорость создания прототипов
скорость выпуска фронтенда
создание посадочных страниц для запусков
создание материалов для кейсов и демонстраций
трение при передаче задач между инженерной командой и командой роста
Именно поэтому We0 AI продолжает описывать цепочку ценности как:
Создание -> Демонстрация -> Рост -> Лиды
Когда агенты для кодинга лучше справляются с длительными задачами, координацией и результатами, готовыми к продукту, вся цепочка начинает двигаться быстрее.
Итог
Самый полезный способ воспринимать это обновление — не как отдельный изолированный прием.
Лучше понимать его так:
Composer 2.5 показывает, что Cursor одновременно развивает как стек обучения, так и продуктовую форму агента для кодинга.
Именно это делает его интереснее, чем поверхностное обновление модели.
Связанные статьи
Связанные инструменты
Источники


