计算机行业研究：OpenAI Shipmas Day2：发布强化微调工具，提升垂类模型训练效率_股票频道

（以下内容从国金证券《计算机行业研究：OpenAI Shipmas Day2：发布强化微调工具，提升垂类模型训练效率》研报附件原文摘录）
事件概览
2024年12月7日凌晨，OpenAI进行“Shipmas”发布活动的第二天直播，展示了强化微调训练方法（RFT，ReinforcementFine-Tuning），可帮助开发者高效微调模型，有针对性地提升模型特定能力。
投资逻辑
何为RFT：OpenAI曾推出过针对自家模型的监督式微调API，能够让模型模仿其在输入文本或图像中学习到的特征，可用于修改模型的语气、样式或响应格式等。本次发布的RFT则针对具体任务对模型进一步微调，可以强化模型得到正确答案的思维方式，使模型在垂类领域性能提升、生成内容更加可控。
如何实现RFT：开发者需提供训练数据集、验证数据集、评分器（Grader）。训练数据集相当于模型需要针对性解答的习题集，在学习过程中模型不能看到习题集答案；评分器根据解答结果和习题集答案，输出0到1之间的分数，设置强化目的为获得尽可能高的分数；除设置评分器外，用户还可以选择调整模型种子和超参数，包括批量大小、学习率乘数、epoch数量等；验证数据集格式与训练数据集一致，但内容没有重叠，主要用于检验训练后模型的泛化能力。
RFT的应用价值：仅需几十个例子、数小时至数天时间，即可帮助开发者搭建针对特定任务的专家模型，任何需要深厚专业知识的领域均将收益，如金融、工程、法律、医疗等。OpenAI近期与汤森路透合作，使用RFT微调o1-mini，从而得到了好用的AI法律助理，能帮助法律专业人员完成一些最具分析性的工作流程；此外，伯克利实验室的JustinReese认为RFT能够赋能罕见病研究，基于生物医学数据进行系统性推理。
目前RFT仅支持Alpha测试申请且名额有限，个人用户预计明年方可使用。
投资建议
OpenAI代表全球AI技术最前沿，其最新发布成果可以指引国内大模型训练及应用落地方向。RFT可提升垂域小模型训练效率，有望快速打造Agent。建议关注大模型持续更新且具备充足算力储备的科大讯飞、商汤-W；多模态技术成熟、推进应用出海的万兴科技；在办公、教育领域与AI技术结合的金山办公、竞业达等。
风险提示
AI技术发展不及预期的风险；政策推进节奏不及预期的风险；算力不足的风险；国际关系风险；监管风险。

证券之星微信

扫描二维码

关注

证券之星微信