首页 - 股票 - 公司新闻 - 正文

蚂蚁联手人大发布首个原生MoE扩散语言模型

来源:财经涂鸦 2025-09-12 15:57:39
关注证券之星官方微博:

(原标题:蚂蚁联手人大发布首个原生MoE扩散语言模型)


公司情报专家《财经涂鸦》获悉,9月11日,在2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生MoE架构的扩散语言模型(dLLM)“LLaDA-MoE”。


据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的MoE在大规模语言模型中实现了与Qwen2.5相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。


实现数据显示,LLaDA-MoE模型性能效果在代码、数学、Agent等任务上领先于LLaDA1.0/1.5和Dream-7B等扩散语言模型,接近或超越了自回归模型Qwen2.5-3B-Instruct,仅激活1.4B 参数即可实现等效3B稠密模型的性能。


“LLaDA-MoE模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把dLLM训扩到更大规模的路上又往前走了一步。”蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠在发布现场表示。


据中国人民大学高瓴人工智能学院副教授李崇轩介绍,两年过去,AI大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。


“究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个token。这导致它们难以捕tokens之间的双向依赖关系。”


面对这些问题,蚂蚁和人大联合研究团队首次MoE架构上推出了原生的扩散语言模型LLaDA-MoE。


蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI新一轮突破。”


据了解,蚂蚁与人大团队攻关3个月,在LLaDA-1.0基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch提供EP并行等一系列并行加速技术,基于蚂蚁Ling2.0基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用7B-A1B(总7B、激活1.4B)的MOE架构完成约20T数据的高效训练。


在蚂蚁自研的统一评测框架下,LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等17项基准上平均提升8.4%,领先LLaDA-1.5达到13.2%,与Qwen2.5-3B-Instruct打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。


据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对dLLM 行特性深度优化的推理引擎。相比NVIDIA官方fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。


蓝振忠还透露,蚂蚁将持续投入包括基于dLLM的AGI领域,下一阶段将联合学界和全球AI社区共同推动AGI新的突破。“自回归不是终点,扩散模型同样可以成为通向AGI的主干道。”蓝振忠如是说。


作者:苏打

编辑:tuya

出品:财经涂鸦(ID:caijingtuya)

微信
扫描二维码
关注
证券之星微信
APP下载
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-