事件北京时间 3月 2日,OpenAI 宣布开放 ChatGPT API,价格为每 1000tokens0.002美元,较 GPT-3.5模型价格降低 90%。同时,OpenAI 还推出 Whisper 官方API,Whisper 模型可实现语音-文本(Speech-to-Text)的跨模态任务,使用者可实现语音的转录和翻译,费用为每分钟 0.006美元。
投资要点微软宣布开放 Whisper API 接口,AI 多模态进程加速
1、Whisper 支持语音转录和翻译两项功能并接受各种语音格式,模型中、英、法、德、意、日等主流语言上取得 85%以上的准确率,完全符合工业准确率标准,未来有望打开商业化空间;
2、Whisper 模型根据参数量和语言不同,共有 9种版本,可适应不同使用者的需求。在中文语料测试下,模型在语音识别、语气识别、自动断句等方面表现出色,可满足各类使用场景需求;
3、多模态将成为 AI 大模型发展的重要趋势,Whisper 模型在跨模态任务上的出色表现,有望为 AI 大模型多模态化发展奠定重要基础。
Whisper 模型拆解,性能优异应用场景丰富
1、Whisper 模型的编码/解码器架构仍基于 Transformer,通过不同大小和类型的数据输入,实现模型的缩放性能,以及各项语音-文本任务的泛化性和鲁棒性;
2、Whisper 模型较之前的语音识别模型有多项改进,在识别准确率、断句、漏音等维度上均有显著优化。目前已有 Speak 为代表的产品使用 Whisper API 提升服务质量,未来看好 Whisper 在更多商业场景中的深度应用。
投资建议:关注具备底层算法模型核心技术优势的厂商
1、推荐标的:拓尔思(中文 NLP 龙头厂商),科大讯飞(智能语音处理及合成);
2、建议关注:谷歌(DeepMind),微软(ChatGPT,Whisper),Meta(OPT 模型),百度(“文心”模型),腾讯;
风险提示
1、AI 技术迭代不及预期的风险; 2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险;