(以下内容从开源证券《通信行业周报:AI模型加速迭代升级,重视AI应用带来产业机遇》研报附件原文摘录)
GPT-4o升级融媒能力,超低延时加速AI应用
2024年5月14日,OpenAI在首次春季发布会发布新旗舰模型“GPT-4o”。相较于GPT-4,GPT-4o进一步提升了文本、图像及语音处理能力,具有多项升级:
(1)多模态交互:GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出,具备优秀的多模态交互能力,包括语音、视频,以及屏幕共享。视觉识别方面:GPT-4o可以识别复杂的视觉内容,帮助进行图像分类、物体检测等任务;音频处理方面:能够处理多重语音输入,进行语音识别和生成;视频分析方面,GPT-4o可以理解和分析视频内容,进行视频摘要和标注。
(2)超低延时:GPT-4o的响应速度较快快,最短仅需232毫秒,平均为320毫秒,几乎达到了人类在对话中的反应时间。具备超低延时的同时可以实现对话中实时打断AI,增加信息或开启新话题,可以实时识别和理解人类的表情,文字,以及数学公式;交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌;并可以在对话中即时翻译多种语言。
(3)多语言支持:GPT-4o语言处理能力加强,在处理英语和编程语言的文本方面表现与GPT-4Turbo相当,但在处理非英语语言文本时有显著提升,支持多达20种语言,并能有效减少标记数量,提高处理效率,新的语言标记算法让GPT-4o在多语言环境下更为高效和准确。
(4)性价比升级:GPT-4o性价比进一步提高,所有ChatGPT用户均可免费使用(有使用上限),速度是GPT-4Turbo的2倍,API成本低50%,速率限制高5倍。
谷歌发布新AI搜索引擎,持续强化AI核心地位
2024年5月15日,谷歌在2024I/O开发者大会发布多项新AI技术和产品,特别强调了谷歌在AI搜索引擎领域的创新以及其人工智能模型Gemini的多项提升,并展示了AI技术在搜索、图像搜索、工作套件等方面的应用。
(1)发布新AI搜索引擎:谷歌发布了新的AI搜索引擎,包括多步骤推理能力,可以处理复杂的多条件查询,并支持视频搜索。
(2)Gemini模型升级:Gemini1.5Pro:提供了全球最长的上下文窗口,能够处理高达200万Tokens,支持超过35种语言;Gemini1.5Flash:针对需要快速反应的场景推出,提供高速和高效的数据处理能力;Gemini Nano:将于今年晚些时候在Pixel手机上推出,支持端侧运行,处理文本、图像、声音和口语信息。
(3)新功能和工具:AI旅行规划和数据分析:Gemini将添加新的旅行规划和数据分析功能,提供个性化的建议和见解;Project Astra:一个新的多模态AI项目,能够解释智能手机摄像头捕捉到的物体,并进行交互。
(4)硬件升级:第六代TPU芯片Trillium:提升了处理能力,将与英伟达的最新GPU Blackwell架构配合使用;液冷系统和光纤网络:谷歌在其数据中心部署了大规模的液冷系统,并投资了大量的光纤网络,以支持其AI和云计算服务。
(5)AI助手功能:实时语音和视频交互:Gemini支持实时语音和视频交互,为用户提供更自然的通信体验;定制AI助手Gems:与“谷歌全家桶”产品线整合,提供个性化服务。
风险提示:5G建设不及预期、AI发展不及预期、智能制造发展不及预期、中美贸易摩擦等。