(以下内容从万联证券《计算机行业跟踪报告:谷歌再更新Gemini大模型,立足MoE架构性能更加卓越》研报附件原文摘录)
行业核心观点:
谷歌推出Gemini1.5Pro版本,性能水平与Gemini1.0Ultra类似。2024年2月15日,谷歌再次更新其Gemini大模型至Gemini1.5代,并推出Gemini1.5Pro版本。Gemini1.5Pro的性能水平与谷歌至今6343为止最大的模型Gemini1.0Ultra类似。与Gemini1.0代对比,Gemini1.5Pro的性能大大超过了Gemini1.0Pro,在绝大多数(27/31)的基准测试(benchmarks)中表现更好;而在与Gemini1.0Ultra的对比中,Gemini1.5Pro在超过一半的基准测试上表现更好,尤其是在多数文本基准测试(10/13)和部分视觉基准测试(6/13)中都表现优于Gemini1.0Ultra。
投资要点:
建立在MoE架构上,能更高效的训练和服务。Gemini1.5大模型建立在对稀疏(sparse)混合专家(mixture-of-expert,MoE)架构及Transformer架构领先的研究上,其训练和服务更为高效。传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的“专家”神经网络。混合专家模型(MoE)主要由两个关键部分组成:1)稀疏MoE层:这些层代替了传统Transformer模型中的前馈网络(FFN)层。MoE层包含若干“专家”,每个“专家”本身是一个独立的神经网络;2)门控网络或路由:这个部分用于决定每个token被发送到哪个“专家”。这种“术业有专攻”的架构,能够极大的提高模型的效率,让MoE能够在远少于稠密模型所需的计算资源下进行有效的预训练,因此基于MoE架构的Gemini1.5在训练和服务上也更为高效。
具备超大容量的上下文窗口,可对大量信息进行复杂推理。Gemini1.5Pro是一种中等规模(mid-size)的多模态模型,引入了在上下文理解方面的突破性实验特征。Gemini1.5Pro除了配有标准的128,000token的上下文窗口,少数开发人员和企业客户还可以通过AI Studio和VertexAI的私人预览版在最多1,000,000个token的上下文窗口中进行尝试和体验。100万个token的上下文窗口容量相当于Gemini1.5Pro可以一次性处理1小时视频/11小时音频/超过30,000行代码/超过700,000个单词(word)的信息库,能够对大量的信息进行复杂推理。
投资建议:Gemini1.5Pro的超大容量上下文窗口有助于其应用在更多的领域。同时,MoE架构能让模型更高效的训练和服务,也有助于多模型大模型在应用端的加速落地。我们认为MoE架构有望成为多模态大模型的主流应用架构之一,建议关注超大容量上下文长度以及MoE架构助力多模态大模型在应用端加速落地带来的投资机遇,同时继续关注多模态大模型对算力的持续需求。
风险因素:人工智能产业发展不及预期,应用落地不及预期,AI带来的隐私、版权与技术风险。