首页 - 股票 - 研报 - 趋势策略 - 正文

信息服务行业跟踪报告:大模型迭代速度或日益加快,具身智能发展有望持续深化

来源:海通国际 作者:Lin Yang 2023-09-20 11:40:00
关注证券之星官方微博:
(以下内容从海通国际《信息服务行业跟踪报告:大模型迭代速度或日益加快,具身智能发展有望持续深化》研报附件原文摘录)
投资要点:
Colossal-AI对700亿参数大模型的训练加速195%,大型模型开发和应用的成本将大大降低。根据HPC-AITechnology官网,作为全球规模最大、最活跃的大模型开发工具与社区,Colossal-AI再次迭代,提供开箱即用的8到512卡LLaMA2训练、微调、推理方案,对700亿参数训练加速195%,并提供一站式云平台解决方案。在使用8卡训练/微调LLaMA2-7B时,Colossal-AI能达到约54%的硬件利用率(MFU),处于业界领先水平。而对于预训练任务,Colossal-AI则因卓越的系统优化和扩展性,仍能保持良好性能,训练提速195%。Colossal-AILLaMA-2训练/微调方案的高性能来源于新的异构内存管理系统Gemini和高性能算子(包括Flashattention2)等系统优化。新Gemini提供了高可扩展性,高鲁棒性,高易用性的接口。同时,Colossal-AI的ShardFormer提供了开箱即用的多维并行和算子优化的能力,仅需数行代码即可使用,在单机以及大规模集群上都能提供良好的性能。其次,为了进一步提升开发和部署效率,Colossal-AI团队还将上述系统优势与算力结合,提供Colossal-AI云平台,提供廉价算力和开箱即用的AI主流应用。用户只需要上传相关数据,即可无代码训练个性化私有模型,并将训练好的模型一键部署。我们认为,Colossal-AI的这次迭代大大降低模型训练以及部署的成本,有望对大模型产业的加速发展起到重要的催化作用。
AI有望代替人类进行强化学习,大模型训练速度有望大幅提升。来自人类反馈的强化学习(RLHF)可以有效地使大型语言模型(LLM)与人类偏好保持一致,但收集高质量的人类偏好标签是一个关键瓶颈。Bai等人探索使用AI来训练用于强化学习微调的奖励模型,但他们的工作并没有直接比较人类与AI反馈的有效性,这使得来自人工智能反馈的强化学习(RLAIF)是否可以成为RLHF的合适替代品的问题仍没有定论。近日,谷歌研究院发表了论文RLAIF:ScalingReinforcementLearningfromHumanFeedbackwithAIFeedback,直接比较了人类与AI反馈的有效性,发现RLAIF可以产生人类水平的性能,这一结果为RLHF的可扩展性方面的限制提供了潜在的解决方案。在这项研究中,研究者给定了一段文本和两个候选响应,使用现有的LLM为其分配一个偏好标签。然后再基于该LLM偏好,使用对比损失训练一个奖励模型(RM)。最后,他们使用该RM来提供奖励,通过强化学习方法微调得到一个策略模型。随后,研究者使用了三个评估指标:打标签AI对齐度、配对准确度和胜率来对AI和人类的反馈进行评估。最终得到RLAIF和RLHF策略分别在71%和73%的时间里比监督式微调(SFT)基准更受人类青睐,而这两个胜率在统计学意义上没有显著差别。同时,当被要求直接比较RLAIF与RLHF的结果时,人类对两者的偏好大致相同(即50%胜率)。我们认为,这些结果表明RLAIF不依赖于人类标注,并且具有良好的扩展性,故而拥有替代RLHF的潜力,如果AI能够代替人类进行强化学习,未来大模型的训练速度有望大幅提升。
大模型被证实理论上能教会机器人对模糊指令做出回应,具身智能发展或持续深化。近日,谷歌DeepMind和东京大学的研究团队共同发布了一篇论文SayTap:LanguagetoQuadrupedalLocomotion,论文中提出的交互式系统(SayTap)方法使用了大型语言模型,可将自然语言指令转译成四足机器人的低层控制信号,而且这些指令可以相当模糊。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能力。
此研究中,研究者提出了一种使用脚接触模式作为接口的方法,该接口在自然语言中连接人类命令,以及输出这些低级命令的运动控制器。这就搭建出了一个四足机器人的交互式系统(SayTap),允许用户灵活地制作各种运动行为。研究团队设计了一个LLM提示设计,一个奖励函数,以及一种将控制器暴露给接触模式的可行分布的方法。最终的结果显示,所提出的方法使四足机器人既能够遵循直接和精确的命令,同时还能遵循自然语言中的非结构化和模糊指令,从而促进人机交互。例如,当研究者给出“好消息,我们要去野餐了!”的指令时,机器人表现出上蹿下跳的行为。当研究者给出“表现得地面好像很热的样子”的命令时,机器人快速地移动,脚几乎不着地。这些反应大多与预期一致。我们认为,这一研究结果展示了未来机器人应用的广阔可能性,例如场景表演、人类伴侣甚至工业和家庭中许多更具创造性的任务,伴随大模型的持续迭代,未来机器人和理解人类意图的能力也有望持续提升,具身智能发展也有望持续深化。
风险提示:AI技术发展不及预期的风险,行业应用不及预期。





微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示机器人盈利能力一般,未来营收成长性较差。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-