(原标题:文心一言与百度的新搜索时代)
在短短的两三个月时间里,曾经名不见经传的Open AI,和它旗下的语言类深度学习大模型ChatGPT,已经在大洋彼岸掀起了滔天巨浪。
微软、谷歌等巨头纷纷入局,或是重金下注、或是仓促应战,几乎在一夜之间,这股AI新势力,几乎让硅谷所有的巨头都卷入其中。
而在国内,虽然媒体和网络上的讨论热度同样很高,但面对这一波AI浪潮席卷而来,国内大多数互联网公司,却并没有如往常那般迅速做出反应。
其背后的原因倒不复杂:像这种基于深度学习的大语言模型,需要巨额的投入和长期不懈的技术积累,绝非短时间内可以拿出成果,即使认识到了其重要性,从现在开始组建团队、投入资金,要等到真正有可展示的成果上线,那也是很久之后的事情了。
在这样一种略显尴尬的局面下,百度(BIDU.US; 09888.HK)旗下基于生成式AI的大语言类模型——文心一言,就担负起了向全行业、甚至全世界展示中国AI大模型研发能力的重要使命,而文心一言的横空出世,或许意味着属于百度的一个全新时代正在拉开帷幕。
与许多人的陈旧印象不同,对于基于深度学习的AI技术,百度的热情由来已久。
早在2010年初,百度就在集团内部对于NLP(自然语言处理)的发展方向进行了全面的梳理和规划。
同年,百度自然语言处理部正式成立,并不断在语音、图片等技术上布局,敲定了在知识图谱技术上长期投入的战略。
2019年3月,百度提出知识增强的语义理解框架ERNIE,在深度学习的基础上融入知识,同时具备持续学习能力,借此一举登顶全球权威数据集GLUE榜单,全世界首次突破90分大关,刷新了榜单历史。
2021年9月,百度发布了PLATO-XL,这是全球首个百亿参数的对话大模型,一举超过 Facebook Blender、谷歌 Meena和微软 DialoGPT,成为全球首个百亿参数中英文对话预训练生成模型。
自然语言处理(NLP, Natural Language Processing)被称为“人工智能皇冠上的明珠”,谁能实现自然语言处理技术的突破,谁就能在AI领域一骑绝尘。而在NLP领域,毫不夸张的说,中国绝对没有一家公司的水平接近百度,也没有任何一家公司有能力借助NLP挑战百度。
可以说,相比那些在ChatGPT爆发之后才后知后觉的同行,百度从一开始就走在了语言类大模型的最前列,与大洋彼岸的竞争对手始终处于交替领先的同一个水平线上。
这也就保证了一旦市场需求走向成熟,百度可以在第一时间就拿出文心一言——这个在全球中文语言对话类模型当中首屈一指的存在。而任何其他的竞争对手,都只能从零开始做起。
进入人工智能时代之后,全球IT技术的技术栈发生了根本性的变化。
过去的体系基本上可以分为三层:芯片层、操作系统层和应用层。而像英特尔、高通、微软、谷歌这些公司,在不同的层级上分别占据了领导位置,从而让整个体系成为自己的摇钱树。
而在人工智能时代,全新的体系则可以分为四层:芯片层、框架层、模型层和应用层。凭借着自己强大的研发实力,百度在其中的多个层级都进行了布局:从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,每一个层面上,百度都有自己的关键技术,这种从底层一直延展到应用层的深度和广度,是国内其他厂商完全无法望其项背的。
正如中金互联网行业首席分析师白洋所说:“AI的三要素包括算力、算法和数据,我们认为百度在这三项上拥有领先优势。百度在芯片层、框架层、模型层和应用层进行全方位布局。”
在这样一种强大的技术基础支持之下,百度始终与国际上最先进的竞争对手处于同一个Level上,以文心大模型为例,和Open AI的GPT模型类似,百度的文心大模型在2019年就已经推出,并且已经迭代了多代。
从单一的自然语言理解延申到多模态,包括视觉、文档、文图、语音等多模态多功能,因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。
以最新发布的ERNIE 3.0 Zeus为例,该模型迭代于ERNIE 3.0,拥有千亿级参数。其已经具备智能创作等各类自然语言理解和生成任务,且公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。
和大洋彼岸被微软Bing+ChatGPT组合拳的进攻逼得有些狼狈的谷歌不同,百度在中文搜索引擎上的霸主地位,至今没有任何人可以挑战与撼动,而份额领先的百度,偏偏又是在AI大模型领域深耕最久的国内厂商。
如果说,ChatGPT成为了微软攻向谷歌腹地的攻城锤,那么,文心一言就是百度进一步强化搜索及信息流市场优势的铜墙铁壁。
有了AI大模型的加持,百度的护城河得到了进一步的拓宽和加深,这种对现有业务的强大保护能力,反过来又让百度能更加从容的为AI的发展继续加码。
实际上,语言类大模型和搜索引擎几乎是天生的搭档。Bing的测试表明,当新一代搜索引擎引入对话模式之后,用户搜索信息的体验得到了本质性的提高。
而对于百度来说,有了文心一言的加持,百度几乎可以肯定会成为中文互联网上信息最丰富、答案最准确、概括最全面的对话式搜索引擎服务商。而这种强势地位反过来进一步提升了百度的流量变现能力,让百度能够比竞争对手在单次搜索请求当中获得更高的平均收益。
另一方面,对于百家号、百度知道、百度百科、贴吧等自有流量来说,文心一言的出现也让这些业务的运营效率得到了进一步释放,知道和百科这些应用可以做到真正意义上的千人千面,以及对现有内容的实时更新,相较之目前依赖人工的方式,效率有望获得巨大的提升。
大模型的迭代,离不开海量训练数据的输入。以ChatGPT为例,其模型训练使用主要来自互联网的文本数据库,包括从网络文本、维基百科、文章中获得高达 570GB的数据,在海量数据投喂的基础上,大模型才能真正发挥自己的威力。
而在中文互联网上,谁拥有全世界规模最大的文本数据库?答案显而易见。毫无疑问,作为搜索引擎的百度,天生就坐拥着一座巨大的金矿。
对于搜索引擎来说,海量文本数据的收集、处理、分类,这原本就是核心搜索业务的题中应有之义。而这样一种先天优势,恰好就变成了训练语言类大模型的良好基础所在。
在中文互联网上,百度要比任何竞争对手都拥有更为丰富和全面的训练数据,因此,在其他技术条件相同的情况下,百度的文心一言就像是含着金钥匙的豪门后代,可以说是从一开始就赢在了起跑线上。
众所周知,新一代大模型的训练环节需要巨量的算力投入。全球各大AI公司一个主要的成本支出项目就是算力的采购费用。
而百度,恰恰是国内领先的智能云服务提供商。百度拥有多个云计算可用区、庞大的超算集群,奠定了大模型训练的基础设施。
目前百度旗下有阳泉、徐水、定兴三个云计算中心,其中,阳泉智能云数据中心仅一期就可承载16万台服务器,预计整个百度阳泉云计算中心可承载24万台服务器。百度自研AI芯片“昆仑”已在多场景实际部署几万片,在公司搜索业务中也已形成较强的工程化实践。
在云端的业务负载没有满载的情况下,所有冗余出来的算力都可以作为大模型的训练算力来源,这就确保了百度可以用更低的成本来进行更多轮次的模型训练,却不必单独承担高昂的软硬件成本。
综上所述,百度智能云可以给文心一言大模型应用提供高并发、高弹性、高精度等不同计算需求,以此来保证“文心一言”的底层算力需求。这也是其他竞争对手所难以仿效的一大优势所在。
从本质上说,近期被捧上神坛的ChatGPT,并不是什么革命性的技术。
作为OpenAI基于2020年发布的GPT-3.5模型微调后开发出的对话机器人,严格来说,ChatGPT并未实现底层模型的显著突破,它只不过是巧妙地采用了理解、生成和交互相结合的方式,基于人类反馈进行强化训练,在体验上带给人智能的感觉。
而在百度CEO李彦宏看来,问题的关键,是如何把技术做成人人需要的产品,让人们真正能够从中受益。而不是单纯的在媒体和网络上制造话题和热度:
“……怎么把这么酷的技术,变成人人需要的产品,让每天有几亿人从中受益?怎么赋能千行百业,让他们的生产效率大幅度地提升?这一步才是最难的,也是最伟大、最能够产生影响力的。”
因此,相比ChatGPT,文心一言在满足用户的真实需求方面走得更远:
基于搜索在真实数据和用户需求理解方面的积累,文心一言能够进一步提升结果的时效性和准确性,并基于文心大模型的知识增强,提供多轮次的推理对话;此外,文心大模型是本土化的AI模型,具备对中文、甚至中国文化的更深理解,这也就意味着文心一言会更适合中文和中国市场。
从目前部分用户的内测反馈来看,相较之ChatGPT,文心一言在某些局部场景,完全可以实现对话质量上的超越,而在其他方面,至少也能做到和竞品旗鼓相当。
对于百度来说,文心一言的推出,是重新确立自己核心技术驱动的发展模式的一次里程碑式的事件,也是百度在即将到来的AI时代的全新发展阶段的序章。
未来已来,而文心一言,早已随百度等待多时。