英伟达开源 Polar 框架！让 Codex 代码能力暴涨 594.74%-电脑软件教程--系统之家

U盘教程

win7教程

win10教程

win11教程

英伟达开源 Polar 框架！让 Codex 代码能力暴涨 594.74%

发布时间：2026-05-28 作者：yonghuang 来源：系统之家重装大师

　　系统之家装机大师 5 月 28 日最新消息，英伟达研究团队正式开源 Polar 强化学习训练框架，这是一款专为 AI 代码智能体设计的革命性工具。该框架无需修改 Codex、Claude Code、Qwen Code 等现有代码智能体执行外壳，即可无缝集成 GRPO（广义相对策略优化）训练。

　　注：GRPO 是一种面向强化学习训练的优化方法，会依据奖励信号调整模型策略，让模型在多步决策任务里学会更优动作。

　　本文里，GRPO 主要用于代码智能体训练，让模型在真实工具调用和补丁提交流程中持续改进表现。

　　论文指出智能体强化学习正从单步任务转向长流程任务，比如代码仓库修改、浏览器操作和操作系统交互。这类任务往往依赖现成执行框架，包含多轮调用、工具使用、上下文压缩和子智能体协作。

　　现有难点在于，这些框架很难直接改写成传统强化学习环境接口，一旦强行接入，还可能丢失关键训练信号。

　　英伟达 Polar 并非重写智能体框架，聚焦在模型 API 边界放置智能体，基本不改动原有 harness。

　　harness 指 Codex CLI、Claude Code、Qwen Code、Pi 这类智能体运行外壳。传统强化学习基础设施通常要求把这类逻辑改写到类似 env.init （）、env.step （）、env.reset （）的环境接口里，接入成本高，还可能丢失原生执行细节。

　　Polar 的核心设计，是把智能体与模型之间的接口当作训练边界，而不是把执行框架本身改造成环境。

　　它在执行框架和推理服务器之间放置模型智能体，兼容 Anthropic、OpenAI、Google 风格请求，转发请求时记录提示词、采样 Token、对数概率和响应内容，再把这些信息重建成可供训练器消费的轨迹。

　　在系统结构上，Polar 由 rollout server 和 gateway node 组成。前者负责任务提交、会话调度、状态持久化和回调接收；后者负责会话执行全生命周期，包括运行时启动、执行框架准备、轨迹构建、结果评测和资源回收。

　　论文还把初始化、运行中、后处理拆到独立工作池，并设置 READY 缓冲区，让运行时预热和评测预热在后台并行，减少长尾任务对 GPU 训练的阻塞。

　　实验部分聚焦软件工程任务。基于同一个 Qwen3.5-4B 底座模型，在 Codex、Claude Code、Qwen Code、Pi 4 种代码执行框架上，Polar 配合 GRPO（组相对策略优化）训练后，在 SWE-Bench Verified 的 pass@1 分数分别从 3.8% 提升到 26.4%（增涨 594.74%）、29.8% 提升到 34.6%、34.6% 提升到 35.2%、34.2% 提升到 40.4%。

　　在效率方面，prefix_merging 相比 per_request，把 3 个训练步骤中的更新数从 1185 次降到 218 次，墙钟时间从 189.5 分钟缩短到 35.2 分钟，约快 5.39 倍；rollout GPU 平均利用率也从 20.4% 升到 87.7%。

　　系统推荐

　　1. 拥有超强的性能，专为“干重活”的专业用户设计(例如 CAD、动画、媒体制作者、图形设计团队等等)，推荐你下载：Windows11 25H2 专业工作站版（前往下载）

　　2. 真正纯净的 Windows11 专业版系统，安装完成以后不捆绑软件，系统占用小。推荐你下载：Windows11 25H2 纯净专业版系统（前往下载）

　　3. 拥有五年超长生命周期支持的养老版，不频繁更新补丁，适合对稳定性要求高的企业用户。推荐你下载：Win11 24H2 LTSC 2024 企业版（前往下载）

　　4. 支持远程桌面主机、组策略管理等高级功能，适合对安全性、管理性和专业性有更高需求的用户。推荐你下载：Windows 11 25H2 专业版（前往下载）

　　以上是系统之家装机大师提供的最新资讯，感谢您的阅读，更多精彩内容请关注系统之家装机大师官网。

教程排行

英伟达开源 Polar 框架！让 Codex 代码能力暴涨 594.74%

【干净无预装软件】Windows11 25H2 X64 纯净版 [电脑系统]