首页 - 股票 - 研报 - 行业研究 - 正文

中国电子:DeepSeek-R1能力跃升,支撑“小模型大能力”的新路径

来源:海通国际 作者:姚书桥,吴叡霖 2025-06-02 23:59:00
关注证券之星官方微博:
(以下内容从海通国际《中国电子:DeepSeek-R1能力跃升,支撑“小模型大能力”的新路径》研报附件原文摘录)
事件:
2025年5月29日,DeepSeek在开源平台HuggingFace发布了其R1模型的最新版本——DeepSeek-R1-0528。此次更新虽被官方称为“小版本试升级”,但在多个关键能力上实现了显著提升。
点评:
思维深度与推理能力大幅增强,本次R1版本虽然基于去年12月发布的DeepSeekV3Base模型,但通过加大后训练阶段的算力投入,显著增强了“深度思考”能力。新版模型在多个基准测试中表现出色,整体水平接近OpenAIo3与Gemini2.5Pro。
AIME2025成绩跃升:在高阶数学测试AIME2025中,R1-0528准确率从旧版的70%提升至87.5%。
token使用量翻倍:平均每题思考token数从12K增加至23K,反映出更复杂、更深入的思维路径建构。
推理链蒸馏价值凸显:R1-0528的“思维链”被蒸馏到小模型Qwen3-8BBase,产出DeepSeek-R1-0528-Qwen3-8B,其在AIME2024中准确率超过Qwen3-8B(+10%),达到Qwen3-235B相当水平。
DeepSeek团队认为,这条高质量推理链不仅对学术界的推理研究具有参考价值,也对工业界“小模型大能力”实践具有重要意义。
新版DeepSeek-R1-0528在通用能力方面实现了全面提升。首先,在改写润色、摘要生成和阅读理解等任务中,幻觉率下降了45-50%,显著增强了输出结果的准确性与实用性;其次,模型在创意写作上也进行了优化,能够生成篇幅更长、结构更完整、风格更贴近人类偏好的议论文、小说和散文等长篇文本,写作表现更加成熟;此外,R1-0528新增支持FunctionCalling和JSONOutput,具备函数级任务调用和结构化输出能力。在Tau-Bench测试中,其在airline场景达到53.5%、retail场景达到63.9%,整体表现接近OpenAIo1-high,虽与o3-High和Claude4Sonnet仍有差距,但在开源模型中已属优秀水平。
风险提示:1)AI需求不及预期;2)地缘政治环境干扰供应链;3)AI数据中心建造放缓





微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-