计算机行业跟踪周报299期：MaaS模型即服务日渐趋势_股票频道

（以下内容从海通国际《计算机行业跟踪周报299期：MaaS模型即服务日渐趋势》研报附件原文摘录）
谷歌推出 PaLM-E，大模型向机器人控制领域迈进。 3 月 6 日，谷歌和柏林工业大学的研究团队推出了目前报道的最大的视觉语言模型——PaLM-E（ Pathways Language Model with Embodied），参数量高达 5620 亿。 PaLM-E 是 PaLM-540B 语言模型与 ViT-22B 视觉Transformer 模型的结合，它被称为“PaLM-E”是因为它基于谷歌现有的“PaLM”大语言模型，并使其具体化（ Embodied）。 PaLM-E 会进行连续观察，例如图像信息或传感器数据，并将它们编码为一系列与语言标记大小相同的向量。这允许模型以与处理语言相同的方式“理解”感官信息。 PaLM-E 是一个仅有解码器的大型语言模型（ LLM），在给定前缀或提示下，能够以自回归方式生成文本补全。作为一种多模态具身视觉语言模型， PaLM-E 不仅可以理解图像，还能理解、生成语言，执行各种复杂的机器人指令而无需重新训练。当得到一个高级命令，如“把抽屉里的米片拿给我”， PaLM-E可以为带有手臂的移动机器人平台生成一个行动计划，并自行执行这些行动， PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标。另外， PaLM-E 能表现出“正向转移”的特点，这意味着 PaLME 可以将从一个任务中学到的知识和技能转移到另一个任务中，相较单任务机器人模型能有更好的表现。根据微软官网，其研究团队也在推动将 ChatGPT 的功能扩展到机器人，并通过语言直观地控制多个平台，如机器人手臂、无人机和家庭助理机器人； SaiVemprala 等发布论文 ChatGPT for Robotics: Design Principles andModel Abilities，介绍了关于 ChatGPT 用于机器人应用的实验研究。
微软推出多模态 AI 模型 Kosmos-1， Meta 也官宣大模型 LLaMA。近期，微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容（ LLM）的 ChatGPT 相比， Kosmos-1 属于多模态大型语言模型（ MLLM），目前能同时理解文字与图像内容。微软也于 3 月 8 日提出了 Visual ChatGPT，其包含不同的视觉基础模型，可以使用户通过以下方式与 ChatGPT 互动：（ 1）不仅发送和接收语言，而且发送和接收图像；（ 2）提供复杂的视觉问题或视觉编辑指令，这需要多个人工智能模型的协作和多步骤；（ 3）提供反馈并要求纠正结果。近日， Meta 公司也发布了全新的人工智能大型语言模型LLaMA，加入微软、谷歌等公司的 AI 竞赛。 LLaMA 的参数范围为从70 亿至 650 亿，并经过了数万亿个 tokens 的训练。在仅拥有十分之一参数的情况下， LLaMA-13B 在大多基准测试中优于 GPT-3（ 175B）；并且， LLaMA-65B 相比于业内领先的 Chinchilla-70B 和PaLM-540B 也具有竞争力。 Meta 在论文 LLaMA: Open and EfficientFoundation Language Models 中表示，计划将所有的研究社区开源LLaMA 模型系列，并且计划在未来发布在更大的预训练语料库上训练的更大模型。我们认为，伴随众多顶尖科技公司入场 AI 大模型领域，行业有望在竞争中持续发展， MaaS 模型即服务有望日渐成为趋势。
GPT-4 即将发布，多模态大模型成为趋势和重要方向。根据德国媒体 Heise，在 3 月 9日其参加的一场名为“ AI in Focus - Digital Kickoff ”的活动中，微软德国 CTO AndreasBraun 表示 GPT-4 将在下周正式推出，而且 GPT-4 将是多模态的，这将提供完全不同的可能性，例如视频等。除此之外， Andreas Braun 还指出 GPT-4 将是一个“改变游戏规则”的技术，因为“他们教机器理解自然语言，然后以统计的方式理解以前只能被人类阅读和理解的内容”。与此同时， GPT-4 已基本“适用于所有语言”，例如可以用德语提问并得到意大利语的回答。 Andreas Braun 认为，通过多模态，微软（ OpenAI）将“使模型全面化”。同一活动中，微软德国首席执行官 Marianne Janik 还谈到了人工智能对企业带来的颠覆性影响。她将当前的人工智能发展和 ChatGPT 的出现比作“iPhone时刻”，并说道“（新技术）不是要替代我们的工作，而是在以不同于以往的方式去完成重复性的任务。 ”我们认为，多模态大模型大大扩展了 AI 落地的场景与可能， AIGC有望覆盖文字、图像乃至视频。从谷歌的 PaLM-E 和微软的 Kosmos-1 这两款多模态的大模型就能看出，目前多模态大模型已经成为整个 AI 大模型发展的趋势和重要方向，随着 GPT-4 的发布，我们判断 AI 行业的发展有望进入一个全新阶段。
建议关注：商汤-W，云从科技-UW，科大讯飞，格灵深瞳。
风险提示： AI 技术发展不及预期。

精彩推荐

内容精选