全球产业前瞻 | AI编程领域新星NousCoder-14B:开源模式引领智能代码新纪元
在AI辅助编程工具竞争日趋白热化之际,Nous Research推出开源编程模型NousCoder-14B。该模型在短短四天内完成训练,其卓越性能不仅媲美甚至超越了多款专有系统,更以极致的开放性为行业描绘了智能代码生成的新图景。
在加密货币风险投资机构支持下,开源人工智能初创公司Nous Research于本周一发布了一款全新的竞技编程模型。该团队声称,这款模型在短短四天内利用48颗英伟达最新的B200图形处理器训练而成,其性能已能媲美甚至超越多款规模更大的专有系统。
这款名为NousCoder-14B的模型,是众多AI编程助手领域的又一力作。然而,它的问世恰逢一个极具看点的时刻:自新年伊始,某知名编程AI工具的智能编程能力便在社交媒体上引发热烈讨论,开发者们纷纷发布令人惊叹的测评与体验报告。这些同步进展凸显了AI辅助软件开发正以惊人的速度演进,以及大小公司之间为争夺这一被普遍认为是未来软件编写方式基础性技术而展开的激烈竞争。
根据Nous Research发布的技术报告,NousCoder-14B在LiveCodeBench v6标准评估中的准确率达到67.87%。该评估涵盖了2024年8月至2025年5月间发布的竞技编程问题。与它所基于的某款基础模型Qwen3-14B相比,这一数字代表了7.08个百分点的显著提升。
“我向该编程AI工具描述了问题,它在一个小时内就生成了我们去年耗费一年时间才构建出的系统。”一位业界资深工程师在某社交媒体平台上的热门帖文中写道。这则帖子捕捉了当前业界对AI编程工具的普遍情绪。该工程师所描述的是其团队耗时一年开发的分布式智能体编排系统,而前述编程AI工具仅通过一段三段式的提示便近似实现了该系统。
这种对比极具启发意义:当前述知名编程AI工具通过端到端软件开发演示激发了人们的想象力时,Nous Research则押注于通过可验证问题训练的开源替代方案能够迎头赶上——并且,这些模型构建过程的透明度与其原始能力同样重要。
NousCoder-14B的发布与许多竞争对手的声明不同之处在于其彻底的开放性。Nous Research不仅公布了模型的权重,还发布了完整的强化学习环境、基准测试套件以及基于其Atropos框架构建的训练工具。这使得任何拥有足够计算资源的研究人员都能复现或扩展这项工作。
“开源Atropos技术栈为可复现的奥林匹克级别推理研究提供了必要的基础设施。”一位社交媒体观察者评论道,总结了此举对学术界和开源社区的深远意义。
该模型由Nous Research的驻场研究员、前竞技程序员Joe Li训练。Li的技术报告揭示了一个意想不到的个人维度:他将模型的进步轨迹与自己某竞技编程平台上的历程进行了比较,在该平台上,参与者根据竞赛表现获得评分。
基于LiveCodeBench分数与该竞技编程平台评级的粗略映射估算,Li计算出NousCoder-14B的改进——从约1600-1750的评级范围跃升至2100-2200——这反映了他自己从14岁到16岁之间持续练习近两年才实现的飞跃。而该模型在四天内便完成了等效的成就。
“看着最后的训练过程徐徐展开,这真是一次超现实的体验。”Li在他的技术报告中写道。
但Li也很快指出了一个重要注意事项,这关乎AI效率的更广泛问题:他在那两年中解决了大约1000个问题,而模型却需要24000个。至少目前来看,人类在样本学习效率方面仍然高出许多。
NousCoder-14B的训练过程揭示了研究人员如何通过强化学习来提升AI推理能力的日益复杂的技巧。
这种方法依赖于研究人员所称的“可验证奖励”——一个系统,其中模型生成代码解决方案,这些解决方案针对测试用例执行,然后模型收到一个简单的二元信号:正确或不正确。虽然这个反馈循环在概念上很简单,但需要大量的底层基础设施才能大规模执行。
Nous Research利用某云服务平台来并行运行沙盒代码执行。24000个训练问题中的每一个平均包含数百个测试用例,系统必须验证生成的代码是否在时间和内存限制(分别为15秒和4GB)内产生正确的输出。
训练采用了名为DAPO(动态采样策略优化)的技术,研究人员发现它在实验中表现略优于其他替代方案。一个关键创新是“动态采样”——即丢弃模型要么解决所有尝试、要么所有尝试都失败的训练示例,因为这些示例无法为学习提供有用的梯度信号。
研究人员还采用了“迭代上下文扩展”方法,首先用32000个token的上下文窗口训练模型,然后扩展到40000个token。在评估过程中,将上下文进一步扩展到约80000个token产生了最佳结果,准确率达到67.87%。
也许最重要的是,训练流程将推理和验证重叠进行——一旦模型生成了一个解决方案,它就会立即开始处理下一个问题,同时上一个解决方案正在被检查。这种流水线操作,结合多个模型实例并行工作的异步训练,最大限度地提高了昂贵GPU集群的硬件利用率。
数据稀缺性:AI编程领域的深层挑战
Li的技术报告中隐藏着一个对AI未来发展具有重大影响的发现:NousCoder-14B的训练数据集包含了“以标准化数据集格式呈现的、所有可立即获得的、可验证的竞技编程问题中的一大部分”。
换句话说,对于这个特定领域,研究人员正在接近高质量训练数据的极限。
“互联网上竞技编程问题的总数大致在同一数量级。”Li写道,他指的是用于训练的24000个问题。“这表明,在竞技编程领域内,我们已经接近高质量数据的极限。”
这一观察结果呼应了整个AI行业对数据限制日益增长的担忧。正如Li所言,尽管计算能力继续按照公认的经济和工程原理扩展,但训练数据却“日益有限”。
他总结道:“未来需要进行的一些最重要的研究,似乎将在合成数据生成和数据高效算法及架构等领域。”
对于竞技编程而言,这一挑战尤为严峻,因为该领域要求问题具有已知且可自动验证的正确解决方案。与自然语言任务不同,在自然语言任务中,人类评估或代理指标即可满足需求;而代码则非对即错——这使得合成数据生成难度大大增加。
Li指出了一个潜在途径:训练模型不仅能解决问题,还能生成可解决的问题,从而实现一种类似于在游戏AI系统中取得成功的“自我博弈”形式。“一旦合成问题生成得到解决,自我博弈将成为一个非常有趣的方向。”他写道。
Nous Research的独特市场定位与未来方向
Nous Research在AI领域开辟了一个独特的地位:一家致力于开源发布的公司,其产品不仅能与专有替代方案竞争,有时甚至能超越它们。
该公司于2025年4月完成了一轮由某知名加密货币风险投资机构领投的5000万美元融资。根据某些报告,其总融资额已达到6500万美元。这项投资反映了市场对AI训练去中心化方法的日益增长的兴趣,Nous Research正是在这一领域开发了其Psyche平台。
此前的发布包括Hermes 4系列模型,该系列“在没有内容限制的情况下超越了某知名对话AI模型”;以及DeepHermes-3,该公司将其描述为首个“可切换推理模型”——允许用户按需激活扩展推理能力。
该公司培养了独特的审美和社区文化,引发了一些关于风格是否可能超越实质的质疑。“我当然会相信一家动漫头像公司。别再搞基准测试了。”一位某社交媒体平台上的评论者写道,他指的是Nous Research的动漫风格品牌和业界对基准性能优化的做法。
其他人则提出了技术问题。“根据基准测试,某竞品语言模型系列表现更好。”一位评论者指出。另一位则询问NousCoder-14B是“专注于智能体模式还是仅仅‘一次性’编程”——这对于实际软件开发至关重要,因为迭代反馈通常比单次尝试产生更好的结果。
此次发布还包含了未来工作的几个方向,暗示了AI编程研究的未来走向。
多轮强化学习位居榜首。目前,模型在生成解决方案后仅收到一个最终的二元奖励——通过或失败。但竞技编程问题通常包含提供中间反馈的公共测试用例:编译错误、不正确的输出、时间限制违规等。训练模型将这些反馈整合到多次尝试中,可以显著提高性能。
控制响应长度仍然是一个挑战。研究人员发现,不正确的解决方案往往比正确的更长,并且响应长度在训练期间很快就耗尽了可用的上下文窗口——各种算法修改都未能解决这一模式。
或许最雄心勃勃的是,Li提出了“问题生成与自我博弈”——即训练模型同时解决和创建编程问题。这将通过使模型能够生成自己的训练课程来直接解决数据稀缺问题。
“人类非常擅长为其他竞技程序员生成有趣且有用的问题,但似乎在大型语言模型创造性问题生成的能力方面仍然存在显著差距。”Li写道。
该模型现已在某开源模型平台上线,采用Apache 2.0许可。对于希望在此基础上进行研究和开发的学者及工程师,Nous Research也同步发布了完整的Atropos训练技术栈。
Li在青少年时期投入两年心血,从某竞技编程平台1600级新手攀升至2100级选手的成就,AI在96小时内便复制了。他需要解决1000个问题,而模型需要24000个。但很快,这些系统或许就能学会自己编写问题,自我学习,并彻底超越人类基准。
现在的问题已不再是机器能否学会编程,而是它们是否很快就会成为比我们更好的“老师”。