簡短版:這不只是「稍為聰明一點的模型」
原文最有用之處,是它並沒有把 Composer 2.5 描述成含糊其辭的升級。它更像是把它當成一份訓練與產品報告來處理。
這一點很重要,因為真正的故事是:
Composer 2.5 的改進,不單是因為它的基礎 checkpoint,亦是因為 Cursor 同時在訓練方法、數據規模、優化器工程,以及產品形態上發力。
這比「模型變得更好」有趣得多。
Composer 2.5 實際上是甚麼
文章一開始就清楚指出:
Composer 2.5 現已可在 Cursor 使用。
它亦強調,這並不是一個全新的基礎模型。Composer 2.5 仍然建基於與 Composer 2 相同的開放 checkpoint 系列,也就是 Moonshot 的 Kimi K2.5。
所以關鍵問題變成:
Cursor 可以在一個強大的開放 checkpoint 之上,把代理式編碼工作流程推到多遠?
升級矩陣聚焦於長任務、可靠性與協作
文章的第一個主要表格比較 Composer 2 與 2.5:
維度 | Composer 2 | Composer 2.5 | 報稱增益 |
長任務持續能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
複雜指令遵循能力 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
協作流暢度 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | +67% |
編碼風格一致性 | 一般 | 大幅改善 | 階躍式變化 |
溝通校準 | 一般 | 大幅改善 | 階躍式變化 |
工具調用準確度 | 中等 | 高 | 重大增益 |
錯誤恢復 | 較弱 | 強 | 階躍式變化 |
重點並不是任何單一百分比,而是這些類別的性質:
長時間運行的任務
複雜指令
協作流暢度
風格一致性
恢復行為
這是 Cursor 嘗試令 Composer 更像一位持久可靠的隊友,而不只是一個快速程式碼補全工具。
第一次技術躍進:定向文字回饋強化學習
文章第一個深入技術部分,是關於使用文字回饋的定向強化學習。
它嘗試解決的問題很常見:一旦 rollout 變得極長,傳統強化學習中的信用分配就會變得混亂。
模型可能知道整體結果是好是壞,但未必清楚到底是哪個局部選擇導致了該結果。
當你想抑制非常具體的局部行為時,這一點尤其令人頭痛,例如:
錯誤的工具調用
令人混淆的解釋
風格漂移
薄弱的對話對齊
傳統強化學習 vs 定向文字回饋強化學習
比較 | 傳統強化學習 | 定向文字回饋強化學習 |
回饋粒度 | 全局 | 局部 |
信用分配 | 嘈雜 | 精準 |
局部行為優化 | 困難 | 高效 |
訓練訊號 | 稀疏 | 密集 |
最適合的任務類型 | 較簡單的任務 | 長而複雜的任務 |
核心想法很簡單:
如果某一步本可以做得更好,就直接把回饋附加到那一步。
這會把模糊的 rollout 結束懲罰,變成更像有針對性的行為修正。
第二次躍進:合成任務擴展 25 倍
第二個主要主題,是合成任務的大幅擴展。
文章表示,Composer 2.5 使用的合成任務數量大約是 Composer 2 的 25 倍。
這很重要,因為當模型變得更強時,靜態任務池便不再具挑戰性。訓練數據也必須變得更困難、更具動態性。
合成數據規模比較
指標 | Composer 2 | Composer 2.5 | 增長 |
合成任務 | 基準 | 基準的 25 倍 | 25 倍 |
難度調整 | 靜態 | 動態 | 階躍式變化 |
真實程式碼庫覆蓋範圍 | 有限 | 廣闊得多 | 重大提升 |
文章中描述的一個特別有用的方法是 功能刪除:
取一個有測試的真實程式碼庫
移除某項特定能力
保持儲存庫可運行
要求模型重建缺失的功能
使用測試作為獎勵訊號
這非常適合編碼代理,因為它訓練它們處理更接近真實開發工作的行為:
還原功能
推理結構
在測試約束下運作
在現有項目內工作
文章亦指出其缺點:隨着合成任務生成規模擴大,鑽獎勵機制空子會成為更嚴重的問題。
第三次躍升:Muon、分片和 HSDP 是為了令整套系統可訓練
如果前兩節是關於訓練甚麼以及如何引導行為,第三節則是關於如何令該訓練系統真正運行起來。
文章在這裏討論了:
Muon 優化器
分片 Muon
雙網格 HSDP
大多數讀者不需要了解每個系統細節。掌握關鍵點已經足夠:
更長的 rollout、更大的合成任務池,以及更細緻的行為反饋,都需要更強大的訓練基礎設施。
架構視角:Cursor 正在構建一條完整的編碼代理管線
文章最後拉遠視角,回到系統層面的圖像。
真正的重點是,Cursor 並不只是嘗試推出一個更好的答覆模型。它正在組裝一個端到端技術棧,涵蓋:
開放檢查點
RL 方法
合成任務
並行訓練系統
產品層級差異化
一直延伸到 IDE 體驗。
這就是為甚麼 Composer 2.5 感覺不只是一次表面的版本小更新。
定價和 Fast 層級揭示了產品策略
定價部分是文章中最實用的部分之一。
定價表
級別 | 輸入 token 價格 | 輸出 token 價格 | 相對成本 | 定位 |
標準 | $0.50 / 百萬 | $2.50 / 百萬 | 基準 | 完整智能,性價比高 |
快速 | $3.00 / 百萬 | $15.00 / 百萬 | 6 倍 |
快速級別成本比較
模型 | 輸入 / 百萬 | 輸出 / 百萬 | 智能 | 價值 |
Composer 2.5 Fast | $3.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
GPT-4o Fast | $5.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Claude 3.5 Fast | $3.00 | $15.00 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Gemini 1.5 Pro Fast | $3.50 | $10.50 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
文章亦提到兩項產品細節:
快速是預設選項
第一週可獲得雙倍用量
這充分反映了 Cursor 的產品理念。它賣的不只是一個模型,而是一個感覺快速且可靠的實用開發介面。
SpaceXAI 合作是最大膽、最具前瞻性的部分
最後的前瞻部分轉向下一代訓練。
文章是這樣描述這項合作的:
總運算量提升 10 倍
100 萬個 H100 等效容量
基建建基於 Colossus 2
由基於 checkpoint 的微調,轉向更全面自我主導的訓練
下一代規劃表
指標 | 現時(Composer 2.5) | 下一代 | 據報升幅 |
總運算量 | 1 倍 | 10 倍 | 10 倍 |
H100 等效容量 | 基準 | 100 萬 | 數量級躍升 |
基建 | 現有叢集 | Colossus 2 | 新架構 |
訓練方式 | 由開放 checkpoint 進行微調 | 更全面自我訓練 | 階段性轉變 |
這顯然亦是公司更宏大敘事的一部分,但它指向一個清晰方向:
Cursor 不想只停留在別人模型之上的一層薄薄 IDE 介面。
為何這對 We0 風格團隊重要
看到這類故事,很容易會覺得它只與開發者有關。
但更強的編碼代理亦會影響:
原型製作速度
前端輸出速度
發佈頁面製作
案例研究及展示素材製作
工程與增長團隊之間的交接摩擦
這就是為何 We0 AI 一直把價值鏈框定為:
Build -> Showcase -> Grow -> Leads
當編碼代理在長任務、協調和可直接用於產品的輸出方面變得更好,整條鏈都會加快。
總結
理解這次升級最有用的方式,不是把它視為一個孤立的小技巧。
更適合理解為:
Composer 2.5 代表 Cursor 同時讓編碼代理的訓練堆疊和產品形態走向成熟。
這正是它比一次表面的模型更新更有意思的地方。
相關文章
相關工具
資料來源


