通信行业周报：AI模型加速迭代升级，重视AI应用带来产业机遇_股票频道

（以下内容从开源证券《通信行业周报：AI模型加速迭代升级，重视AI应用带来产业机遇》研报附件原文摘录）
GPT-4o升级融媒能力，超低延时加速AI应用
2024年5月14日，OpenAI在首次春季发布会发布新旗舰模型“GPT-4o”。相较于GPT-4，GPT-4o进一步提升了文本、图像及语音处理能力，具有多项升级：
（1）多模态交互：GPT-4o是一个多模态大模型，支持文本、音频和图像的任意组合输入，并能生成文本、音频和图像的任意组合输出，具备优秀的多模态交互能力，包括语音、视频，以及屏幕共享。视觉识别方面：GPT-4o可以识别复杂的视觉内容，帮助进行图像分类、物体检测等任务；音频处理方面：能够处理多重语音输入，进行语音识别和生成；视频分析方面，GPT-4o可以理解和分析视频内容，进行视频摘要和标注。
（2）超低延时：GPT-4o的响应速度较快快，最短仅需232毫秒，平均为320毫秒，几乎达到了人类在对话中的反应时间。具备超低延时的同时可以实现对话中实时打断AI，增加信息或开启新话题，可以实时识别和理解人类的表情，文字，以及数学公式；交互语音感情丰富，可以变换语音语调、风格，还可以模仿，甚至“即兴”唱歌；并可以在对话中即时翻译多种语言。
（3）多语言支持：GPT-4o语言处理能力加强，在处理英语和编程语言的文本方面表现与GPT-4Turbo相当，但在处理非英语语言文本时有显著提升，支持多达20种语言，并能有效减少标记数量，提高处理效率，新的语言标记算法让GPT-4o在多语言环境下更为高效和准确。
（4）性价比升级：GPT-4o性价比进一步提高，所有ChatGPT用户均可免费使用（有使用上限），速度是GPT-4Turbo的2倍，API成本低50%，速率限制高5倍。
谷歌发布新AI搜索引擎，持续强化AI核心地位
2024年5月15日，谷歌在2024I/O开发者大会发布多项新AI技术和产品，特别强调了谷歌在AI搜索引擎领域的创新以及其人工智能模型Gemini的多项提升，并展示了AI技术在搜索、图像搜索、工作套件等方面的应用。
（1）发布新AI搜索引擎：谷歌发布了新的AI搜索引擎，包括多步骤推理能力，可以处理复杂的多条件查询，并支持视频搜索。
（2）Gemini模型升级：Gemini1.5Pro：提供了全球最长的上下文窗口，能够处理高达200万Tokens，支持超过35种语言；Gemini1.5Flash：针对需要快速反应的场景推出，提供高速和高效的数据处理能力；Gemini Nano：将于今年晚些时候在Pixel手机上推出，支持端侧运行，处理文本、图像、声音和口语信息。
（3）新功能和工具：AI旅行规划和数据分析：Gemini将添加新的旅行规划和数据分析功能，提供个性化的建议和见解；Project Astra：一个新的多模态AI项目，能够解释智能手机摄像头捕捉到的物体，并进行交互。
（4）硬件升级：第六代TPU芯片Trillium：提升了处理能力，将与英伟达的最新GPU Blackwell架构配合使用；液冷系统和光纤网络：谷歌在其数据中心部署了大规模的液冷系统，并投资了大量的光纤网络，以支持其AI和云计算服务。
（5）AI助手功能：实时语音和视频交互：Gemini支持实时语音和视频交互，为用户提供更自然的通信体验；定制AI助手Gems：与“谷歌全家桶”产品线整合，提供个性化服务。
风险提示：5G建设不及预期、AI发展不及预期、智能制造发展不及预期、中美贸易摩擦等。

证券之星微信

扫描二维码

关注

证券之星微信

精彩推荐

内容精选