计算机：多模态，AI大模型新一轮革命_股票频道

（以下内容从华福证券《计算机：多模态，AI大模型新一轮革命》研报附件原文摘录）
多模态推动人工智能迈向 AGI，底层技术日臻成熟
相比单模态，多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现的更加智能，能够执行更大范围的任务，有望成为人类智能助手，推动 AI 迈向 AGI。就技术架构而言，多模态技术可拆解为编码、对齐、解码与微调等步骤，逐步挖掘多模态关联信息，输出目标结果。文生图 CLIP 模型为最先成熟的多模态技术，目前，多模态已不再局限于图文两层信息。例如，Meta-Transformer 可同时理解并处理 12 种模态信息。
OpenAI 谷歌开启多模态军备竞赛， Sora 和 Gemini 各领风骚
海外龙头具备先发与技术优势，引领多模态大模型前进方向： 1）OpenAI 近期密集剧透 GPT-5，相比 GPT-4 实现全面升级，重点突破语音输入和输入、图像输出以及最终的视频输入方向，或将实现真正多模态；此外， 2 月发布文生视频大模型 Sora，能够根据文本指令或静态图像生成 1 分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧，能够很好地模拟和理解现实世界。 2） Google 推出原生多模态大模型Gemini，可泛化并无缝地理解、操作和组合不同类别的信息；此外， 2月推出 Gemini 1.5 Pro，使用 MoE 架构首破 100 万极限上下文纪录，可单次处理包括 1 小时的视频、 11 小时的音频、超过 3 万行代码或超过 70 万个单词的代码库。 3） Meta 坚持大模型开源，建设开源生态巩固优势，已陆续开源 ImageBind、 AnyMAL 等多模态大模型。国内大模型厂商有望沿着复制海外先进技术与发挥生态禀赋优势的两大路径，与海外大厂逐步缩小差距。
多模态提升大模型泛化能力，垂直领域应用场景广阔
强调技术与业务的融合以推动业务的数字化转型和智能化升级，才能够最大化的发挥大模型价值同时激励大模型创新升级，实现业务效率提升与技术创新的良性循环。多模态大模型的应用场景和价值正在不断扩展和提升。从语音识别、图像生成、自然语言理解、视频分析，到机器翻译、知识图谱等，多模态大模型都能够提供更丰富、更智能、更人性化的服务和体验。在强大泛化能力基础上，大模型可以在不同模态和场景之间实现知识的迁移和共享，将大模型的应用扩展到不同的领域和场景。
投资建议
我们看好具有算法、数据等先发优势的国产大模型厂商，同时多模态提升大模型泛化能力，多元信息环境下实现“多专多能”，在垂直领域具有广阔的应用场景和市场价值。建议关注： 1） AI+多模态：万兴科技、中科创达、虹软科技、当虹科技、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技； 2） AI+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息，用友网络； 3） AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛通股份、光云科技、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康、迪安诊断等。
风险提示
技术发展不及预期、产品落地不及预期、 AI 伦理风险等

证券之星微信

扫描二维码

关注

证券之星微信