背后技术细节首公开
文本创作、数学、逻辑推理能力全面提升
-
提升数据量:针对已有题库模拟大量数学题用于模型的增训。对于一些比较难的题目,也会采用MCTS等技术来提高模型的做题能力。
-
强化学习:为了进一步提升模型能力,采用了强化学习技术,包括DPO/PPO等技术。训练了一个基于过程的reward模型对结果进行打分。
自研工程平台的牢固支撑
元宝APP,可以上手了
本文源自「私域神器」,发布者:siyushenqi.com,转载请注明出处:https://www.siyushenqi.com/32537.html