新模型的“RL”含量很高,泛化性较好。阶跃星辰在数据质量、测试时计算、模型大小等多个方面进行了scaling,再次验证了Scaling Law的有效性。Step R-mini的设计与开发遵循了当前主流的推理模型开发范式,通过在推理阶段增加计算量,并结合思维链等技术,实现了“慢思考”。该系统能够根据任务的复杂性进行主动规划、尝试和反思,从而通过反复验证的逻辑机制,提供准确且可靠的反馈。
Step R-mini在文理融合的题目、高考数学题、逻辑推理题等不同类型的任务中均表现出色。例如,在《梦游天姥吟留别》中找到一个数与其倍数在同一句的诗句,Step R-mini正确找到了“千岩万转路不定”;在高考数学题中,经过多轮思考验证得到了正确答案;在逻辑推理题中,系统地整理了题目中几个人的关系,并清晰呈现最终答案;在翻译任务中,将“I'm not in danger, I'm the danger.”翻译为“我非但无险,我就是那险途”,并参考了《黑暗骑士》中的类似台词;还能帮助外国网友起中文名,如将“Star Lily”翻译为“星莉”。
除了语言推理模型,阶跃星辰还在打造能够进行多模态推理的视觉推理模型。该模型引入了慢感知和空间推理的思想,把Test-Time Scaling从文本空间转移到视觉空间,实现在视觉空间下的Spatial-Slow-Thinking。在解答图中题目、从蓝色箭头出发到达的位置、小球对应的数字等视觉推理任务中展示了出色的效果,令人期待。
-
Scaling 强化学习:从模仿学习到强化学习,从人类偏好到环境反馈,阶跃星辰坚持 Scaling 强化训练,以强化学习为模型迭代的核心训练阶段。
-
Scaling 数据质量:数据质量是重中之重。在确保数据质量的前提下,阶跃星辰持续扩大数据分布与规模,为强化学习训练提供坚实保障。
-
Scaling Test-Time Compute:坚定执行 Training-Time Scaling 的同时,亦兼顾 Test-Time Scaling。在测试阶段,阶跃星辰发现,System 2 范式能让 Step Reasoner mini 在极复杂任务推理上达到 50,000 规模的思考 token,进而实现深度思考。
-
Scaling 模型大小:这是最经典的 Scaling 方式。阶跃星辰表示,坚持模型大小 Scaling 仍然是 System-2 的核心,已经在开发更智能、更通用、综合能力更强的 Step Reasoner 推理模型。
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32820.html