(原标题:Sora横空出世 国内企业赶得上吗?)
来源|中访网
作者|一杭工作室
北京时间2024年2月16日凌晨2点14分,OpenAI发布了首个文生视频模型Sora。Sora具备将文字描述生成长达60秒高质量视频的能力,包含多角度镜头、富有感情的角色以及高度拟真的细节。
Sora的诞生,如一石激起千层浪,引发了全球范围内的讨论和关注。OpenAI背后的“金主爸爸”微软公司也因此股价暴涨,市值超过苹果,成为“世界股王”。Sora的诞生,也意味着人工智能前景被进一步看好,而当前最流行、最成功的AI工具几乎都是建立在英伟达的技术框架上。高盛分析师Toshiya Hari指出,各国政府以及科技巨头们对AI基础设施建设的投资将进一步推动英伟达的营收。国际芯片巨头英伟达的股价“一路狂飙”,2月23日,英伟达的股价更是“一夜涨了一个茅台”。
在我国,龙年春节过后的第一个交易日,与AI算力相关的光模块板块涨幅超过14%,Sora和A股双双冲上热搜。据东方财富网数据显示,截至2月26日收盘,多模态AI板块六天涨幅约18%;影视板块六天涨幅近15%;AI芯片板块六天涨幅9%。目前,A股共有32只Sora概念股,其中国脉文化自2月19起已连续6日“一字涨停”。
另据36氪消息,自Sora16日凌晨发布以来,短短几天时间国内就有超过14家券商发布逾19份相关研报,均对其给予了极高评价。天风证券指出,内容创作工作流有望被颠覆,下一个亿级用户的互联网平台雏形出现。2000亿美元的短视频创作生态有望率先被颠覆,生成式AI在视频创作和世界模型的大踏步进步将实现对视频、3D、游戏等下游应用场景的渗透。
尽管Sora尚未对公众全面开放,但作为一种视频生成模型,Sora的诞生,无疑为影视行业带来了巨大的冲击。影像创意科技企业北京天工异彩影视科技有限公司的副总裁兼CTO周辉如认为,Sora生成的视频质量足够震撼,可以缩短电影拍摄周期。掌阅科技2月23日在互动平台表示,以Sora为代表的文生视频技术的发展,将有力助推网文IP的视频化,对公司IP的视频转化也将提供助力。
事实上,Sora发布前我国已有十多家A股上市公司之前已经布局多模态大模型或对AI视频相关研发。
海康威视在2023年4月20日回应投资者提问时透露,公司早在几年前就开始研发视觉大模型。如今,已经进入了多模态大模型的研发阶段,包括视觉、语音、文本等多模态信号的融合训练及处理。这无疑展示了海康威视在人工智能领域的深厚技术积累。
同样,万兴科技也在此之前发布了音视频多媒体大模型——“天幕”。据了解,“天幕”是一个以音视频生成式AI技术为基础的多媒体创作垂类大模型。它由视频大模型、音频大模型、图片大模型、语言大模型组成,聚焦数字创意垂类创作场景。
此外,大华股份在2023年10月发布了“星汉大模型”。该模型融合了点云、语音、图像等输入,构建了多模态融合的行业视觉大模型;因赛集团在2023年12月25日在互动平台表示,公司 InsightGPT具备文生文、视频智能剪辑、图生视频等功能。目前,InsightGPT正在开发文生视频功能。在现有图生视频等技术框架下,InsightGPT已经可以生成20秒以上的视频。
Sora概念股掀起的涨停热潮,是目前市场对Sora发展前景的积极看好。然而,国内AI视觉产品与Sora存在不小差距。在Sora亮相的三天之后,焦点科技就通过官微宣布,旗下中国制造网为中国外贸企业打造的AI外贸助手AI麦可再次更新迭代,在业内首次推出了全新的视频生成功能。2月19日当天,焦点科技涨停。
据悉,AI麦可只是一款能根据上传的产品图片自动生成最长45秒的高清视频的AI工具。用户输入关键词或描述,AI麦可即可为其生成一段文案。随后,用户可以在多种虚拟人形象中选择合适的“数字人讲解员”来语音介绍产品。有业内人士指出,AI麦可生成的视频实质上是动态化的PPT加上数字人语音播报,与Sora完全不是一类东西。
与焦点科技的情况类似,多数Sora概念产品往往局限在数字人播报或AI换脸的维度。
值得注意的是,国内领先的科技公司在AI视频领域的发力重点并不同于Sora。百度推出AI视频剪辑工具“智剪”,帮助用户高效剪辑和后期处理;腾讯的AI视频增强技术可智能修复和增强低质量视频;阿里巴巴研究视频推荐和内容理解,推出AI视频推荐系统;字节跳动在抖音上应用深度学习和自然语言处理技术,实现视频智能推荐和个性化展示,提升用户体验。
尽管中国的AI相对美国发展较晚。但在不少专家看来,差距正在缩小。李开复认为,中国拥有庞大的数据资源和优秀的人才储备,这使得中国在AI领域具有巨大的潜力。同时,中国在AI应用方面的创新能力突出,在智能支付、智能客服等领域已经取得了重要突破。