甚麼是 Cursor Composer 2.5？定向強化學習、25 倍合成數據，以及更聰明的編程代理

簡短版：這不只是「稍為聰明一點的模型」

原文最有用之處，是它並沒有把 Composer 2.5 描述成含糊其辭的升級。它更像是把它當成一份訓練與產品報告來處理。

這一點很重要，因為真正的故事是：

Composer 2.5 的改進，不單是因為它的基礎 checkpoint，亦是因為 Cursor 同時在訓練方法、數據規模、優化器工程，以及產品形態上發力。

這比「模型變得更好」有趣得多。

Composer 2.5 實際上是甚麼

文章一開始就清楚指出：

Composer 2.5 現已可在 Cursor 使用。

它亦強調，這並不是一個全新的基礎模型。Composer 2.5 仍然建基於與 Composer 2 相同的開放 checkpoint 系列，也就是 Moonshot 的 Kimi K2.5。

所以關鍵問題變成：

Cursor 可以在一個強大的開放 checkpoint 之上，把代理式編碼工作流程推到多遠？

升級矩陣聚焦於長任務、可靠性與協作

文章的第一個主要表格比較 Composer 2 與 2.5：

維度	Composer 2	Composer 2.5	報稱增益
長任務持續能力	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
複雜指令遵循能力	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
協作流暢度	⭐⭐⭐	⭐⭐⭐⭐⭐	+67%
編碼風格一致性	一般	大幅改善	階躍式變化
溝通校準	一般	大幅改善	階躍式變化
工具調用準確度	中等	高	重大增益
錯誤恢復	較弱	強	階躍式變化

重點並不是任何單一百分比，而是這些類別的性質：

長時間運行的任務
複雜指令
協作流暢度
風格一致性
恢復行為

這是 Cursor 嘗試令 Composer 更像一位持久可靠的隊友，而不只是一個快速程式碼補全工具。

第一次技術躍進：定向文字回饋強化學習

文章第一個深入技術部分，是關於使用文字回饋的定向強化學習。

它嘗試解決的問題很常見：一旦 rollout 變得極長，傳統強化學習中的信用分配就會變得混亂。

模型可能知道整體結果是好是壞，但未必清楚到底是哪個局部選擇導致了該結果。

當你想抑制非常具體的局部行為時，這一點尤其令人頭痛，例如：

錯誤的工具調用
令人混淆的解釋
風格漂移
薄弱的對話對齊

傳統強化學習 vs 定向文字回饋強化學習

比較	傳統強化學習	定向文字回饋強化學習
回饋粒度	全局	局部
信用分配	嘈雜	精準
局部行為優化	困難	高效
訓練訊號	稀疏	密集
最適合的任務類型	較簡單的任務	長而複雜的任務

核心想法很簡單：

如果某一步本可以做得更好，就直接把回饋附加到那一步。

這會把模糊的 rollout 結束懲罰，變成更像有針對性的行為修正。

第二次躍進：合成任務擴展 25 倍

第二個主要主題，是合成任務的大幅擴展。

文章表示，Composer 2.5 使用的合成任務數量大約是 Composer 2 的 25 倍。

這很重要，因為當模型變得更強時，靜態任務池便不再具挑戰性。訓練數據也必須變得更困難、更具動態性。

合成數據規模比較

指標	Composer 2	Composer 2.5	增長
合成任務	基準	基準的 25 倍	25 倍
難度調整	靜態	動態	階躍式變化
真實程式碼庫覆蓋範圍	有限	廣闊得多	重大提升

文章中描述的一個特別有用的方法是 功能刪除：

取一個有測試的真實程式碼庫
移除某項特定能力
保持儲存庫可運行
要求模型重建缺失的功能
使用測試作為獎勵訊號

這非常適合編碼代理，因為它訓練它們處理更接近真實開發工作的行為：

還原功能
推理結構
在測試約束下運作

在現有項目內工作

文章亦指出其缺點：隨着合成任務生成規模擴大，鑽獎勵機制空子會成為更嚴重的問題。

第三次躍升：Muon、分片和 HSDP 是為了令整套系統可訓練

如果前兩節是關於訓練甚麼以及如何引導行為，第三節則是關於如何令該訓練系統真正運行起來。

文章在這裏討論了：

Muon 優化器
分片 Muon
雙網格 HSDP

免費版 · 使用 We0 AI

幾分鐘搭建展示站並增長獲客

輸入一句想法，We0 AI 即可生成展示站、頁面與 CMS。發佈上線後並幫你獲取客戶和流量。

用戶註冊贈送一次完整項目生成

適合先體驗一次完整生成流程，快速看到專案初稿。

未命名-1

佈局

填充

圓角

生成中

大多數讀者不需要了解每個系統細節。掌握關鍵點已經足夠：

更長的 rollout、更大的合成任務池，以及更細緻的行為反饋，都需要更強大的訓練基礎設施。

架構視角：Cursor 正在構建一條完整的編碼代理管線

文章最後拉遠視角，回到系統層面的圖像。

真正的重點是，Cursor 並不只是嘗試推出一個更好的答覆模型。它正在組裝一個端到端技術棧，涵蓋：

開放檢查點
RL 方法

合成任務

並行訓練系統
產品層級差異化

一直延伸到 IDE 體驗。

這就是為甚麼 Composer 2.5 感覺不只是一次表面的版本小更新。

定價和 Fast 層級揭示了產品策略

定價部分是文章中最實用的部分之一。

定價表

級別	輸入 token 價格	輸出 token 價格	相對成本	定位
標準	$0.50 / 百萬	$2.50 / 百萬	基準	完整智能，性價比高
快速	$3.00 / 百萬	$15.00 / 百萬	6 倍

快速級別成本比較

模型	輸入 / 百萬	輸出 / 百萬	智能	價值
Composer 2.5 Fast	$3.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
GPT-4o Fast	$5.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Claude 3.5 Fast	$3.00	$15.00	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Gemini 1.5 Pro Fast	$3.50	$10.50	⭐⭐⭐⭐	⭐⭐⭐⭐

文章亦提到兩項產品細節：

快速是預設選項

第一週可獲得雙倍用量

這充分反映了 Cursor 的產品理念。它賣的不只是一個模型，而是一個感覺快速且可靠的實用開發介面。

SpaceXAI 合作是最大膽、最具前瞻性的部分

最後的前瞻部分轉向下一代訓練。

文章是這樣描述這項合作的：

總運算量提升 10 倍
100 萬個 H100 等效容量
基建建基於 Colossus 2
由基於 checkpoint 的微調，轉向更全面自我主導的訓練

下一代規劃表

指標	現時（Composer 2.5）	下一代	據報升幅
總運算量	1 倍	10 倍	10 倍
H100 等效容量	基準	100 萬	數量級躍升
基建	現有叢集	Colossus 2	新架構
訓練方式	由開放 checkpoint 進行微調	更全面自我訓練	階段性轉變

這顯然亦是公司更宏大敘事的一部分，但它指向一個清晰方向：

Cursor 不想只停留在別人模型之上的一層薄薄 IDE 介面。

為何這對 We0 風格團隊重要

看到這類故事，很容易會覺得它只與開發者有關。

但更強的編碼代理亦會影響：

原型製作速度
前端輸出速度
發佈頁面製作
案例研究及展示素材製作
工程與增長團隊之間的交接摩擦

這就是為何 We0 AI 一直把價值鏈框定為：

Build -> Showcase -> Grow -> Leads

當編碼代理在長任務、協調和可直接用於產品的輸出方面變得更好，整條鏈都會加快。

總結

理解這次升級最有用的方式，不是把它視為一個孤立的小技巧。

更適合理解為：

Composer 2.5 代表 Cursor 同時讓編碼代理的訓練堆疊和產品形態走向成熟。

這正是它比一次表面的模型更新更有意思的地方。

Google AI for Developers：Gemini API 文件

甚麼是 Cursor Composer 2.5？定向強化學習、25 倍合成數據，以及更聰明的編程代理

簡短版：這不只是「稍為聰明一點的模型」

Composer 2.5 實際上是甚麼

升級矩陣聚焦於長任務、可靠性與協作

文章的第一個主要表格比較 Composer 2 與 2.5：

維度

較弱

強

第一次技術躍進：定向文字回饋強化學習

傳統強化學習 vs 定向文字回饋強化學習

第二次躍進：合成任務擴展 25 倍

合成數據規模比較

在現有項目內工作

第三次躍升：Muon、分片和 HSDP 是為了令整套系統可訓練

幾分鐘搭建展示站並增長獲客

架構視角：Cursor 正在構建一條完整的編碼代理管線

合成任務

定價和 Fast 層級揭示了產品策略

定價表

$2.50 / 百萬

快速級別成本比較

⭐⭐⭐⭐⭐

第一週可獲得雙倍用量

SpaceXAI 合作是最大膽、最具前瞻性的部分

下一代規劃表

現時（Composer 2.5）

據報升幅

100 萬

訓練方式

由開放 checkpoint 進行微調

為何這對 We0 風格團隊重要

這就是為何 We0 AI 一直把價值鏈框定為：

總結

相關文章

相關工具

資料來源

相關文章

準備把一個想法變成 在線網站？

2026 創業 App 開發指南：如何從 MVP 快速驗證並邁向規模化增長

Aider 教學 2026：完整安裝、設定、指令及 Git 原生工作流程指南

CrewAI vs LangGraph：2026 年你應該選擇哪個多代理框架？

準備把一個想法變成在線網站？