事件:12月1日,美国人工智能公司OpenAI在网页上推出自然语言处理领域(NLP)的模型ChatGPT,它能够通过对话方式进行交互,并根据用户输入的自然语言文本内容,自动生成新的文本内容。一周内,ChatGPT的用户已突破100万。
什么是ChatGPT:ChatGPT是在GPT3.5大模型语言模型(LLM,即LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调(Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等)。
ChatGPT引爆AIGC,AIGC将迎多场景爆发期。AIGC即AIGeneratedContent,是继UGC、PGC之后利用AI技术自动生成内容的新型生产方式。相比UGC和PGC,AIGC的最大不同是基于海量数据、风格随机多变、跨模态融合、认知交互力等新技术导向特征。
随着ChatGPT的技术日渐成熟,AIGC将在电商虚拟主播、教育、金融、医疗、影视娱乐等多场景爆发,并进一步催生元宇宙的快速发展。
ChatGPT的技术发展路径:从GPT-1到InstructGPT,数据量与参数量不断增加,模型精度和能力提升。2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出了初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。
GPT-2扩展了网络参数和数据集,进行多任务学习,可以在数据量足够丰富且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。
对比GPT-2,2020年推出的GPT-3最显著的特征是庞大的数据量和参数投入,整体训练过程耗资1200万美元,投入数据量达上万亿,模型参数量达到1750亿。GPT-3延续了前两代GPT的技术架构,但改变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-contextlearning)来提高模型对话输出的性能。GPT-3的规模和语言能力几乎是最强大的。它能在不做微调的情况下,在一些传统的NLP任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机器翻译等;在新的领域,GPT-3将NLP的应用扩展到缺乏足够训练数据的领域,例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。然而,GPT-3在推理和理解能力上还有较长的路要走,在自然语言推理(NLI)任务中表现不佳。
InstructGPT和ChatGPT:更好地遵循用户意图、更少的虚假信息。
OpenAI在2022年初发布了InstructGPT。该语言模型通过“基于人类反馈的强化学习(RLHF)和监督学习”来提高输出质量。虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化,通过采取监督学习的方式让模型学习人类排序的方式。
ChatGPT的优势与缺陷:优势是ChatGPT不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本,相较于以前的模型已具备较强的自然语言处理能力。但目前ChatGPT在精准性、真实性、重复率和依赖性等问题上尚待改善:第一、由于技术实现的问题,ChatGPT会不可避免地写出一些似是而非、或者荒谬的答案,这将导致植入虚假数据和误导用户的风险。ChatGPT依然没有完全克服大型语言模型(LLM)的这一常见缺点;第二、在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT会过度强调某些短语或者句子,导致重复性高的问题;第三、ChatGPT的强大能力依赖语料库、数据量的抓取和复杂的训练过程。ChatGPT模型依赖于大规模离线语料进行训练,往往不能充分接受并采用在线提供的即时信息,难以理解对话中提及的因果关系,也无法基于已有信息进行推测,这距离人类举一反三的能力相差较远。
可能存在的瓶颈:ChatGPT本身的缺陷可能通过技术进步和优化训练方式得到解决,但它的爆火却引发了人们对AIGC行业中安全性、伦理约束和创造力的思考,或将成为发展瓶颈。一方面,由于RLFH并不能完全避免ChatGPT训练库中学习到的不道德或有偏见的回答,也会导致在模糊提示或引导回答的过程中让ChatGPT输出一些有害信息,导致输出结果的安全性降低。另一方面,在创造性、创作伦理和知识产权等方面并未形成有效界定。在数据挖掘、大规模计算、统计、多线程工作等数据处理分析领域,人工智能有着人类不可比拟的优势,但是以“创新和感知”为基础的创造过程是机器学习和模型难以训练的。目前ChatGPT能够在用户的引导下快速生成小说、诗歌、散文、编程等需要创造力的内容,或许将对创作者和以版权为基础的行业造成冲击。文本生成的过程是基于数据库内容的学习,这是否会构成对被抓取作品的侵权,ChatGPT生成的文本内容是否具有著作权,是否属于该用户等一系列问题的答案尚不明确。
ChatGPT的能力目前几乎可以涵盖各个自然语言交互领域,例如聊天机器人、对话系统、智能客服、信息检索、主题建模、文本生成和总结、NLP作为服务的翻译、转录、总结等等,未来应用领域将面向蓝海。例如,在聊天机器人领域,目前ChatGPT已经能基本满足用户的提供个性化需求和信息提供服务;在需要智能客服的电商、金融、医疗、教育、政务等垂直领域等,ChatGPT能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题解答。
除此外,在传媒、娱乐、设计和影视领域,ChatGPT能够协助完成一些较低层次的任务,包括文稿生成、采访助手、摘要总结等,或将提高行业的运行效率。
ChatGPT的商业化落地方式还待商榷:第一、由于GPT-3的训练耗资巨大,且需要大量的数据集和算力,即使ChatGPT未来应用前景广阔,如果不能降低模型的更新训练成本和推理成本,将限制中小B端企业的采购意愿。第二、目前正在免费测试阶段的ChatGPT还未解决GPT-3模型存在的准确性和安全性问题,还需要进一步优化迭代。此前,OpenAI已尝试过通过API接口的方式推动GPT-3的商业化,但由于模型问题并未通过测试阶段。虽然目前OpenAI已找到方式优化输出虚假信息的问题,但效力远远不足。如果不能解决这两个问题,GPT的商业化道路还需等待。
l投资建议ChatGPT代表自然语言处理技术一大进步,利好相关AI公司的技术与产品落地,可重点关注拓尔思(300229.SZ)、商汤-W(0020.HK)、科大讯飞(002230.SZ)。
l风险提示技术研发不及预期的风险;商业化落地方式尚不明确的风险;下游需求不及预期的风险。
(一)ChatGPT是什么ChatGPT是一个由OpenAI开发的自然语言处理领域(NLP)的模型,它通过对话方式进行交互,能够根据用户输入的自然语言文本内容,自动生成新的文本内容,属于AIGC行业中细分赛道中的一种。
ChatGPT是在GPT3.5大模型语言模型(LLM,即LargeLanguageModel)的基础上,加入“基于人类反馈的强化学习(RLHF,ReinforcementLearningfromHumanFeedback)”来不断微调(Fine-tune)预训练语言模型,使得LLM模型学会理解不同类型的命令指令,并通过多重标准合理判断基于给定的prompt输入指令,输出的是否为优质信息。(这些标准包括:富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等)(二)ChatGPT引爆AIGC,AIGC将迎多场景爆发期。
AIGC即AI-GeneratedContent,是继UGC、PGC之后利用AI技术自动生成内容的新型生产方式。相比UGC和PGC,AIGC的最大不同是基于海量数据、风格随机多变、跨模态融合、认知交互力等新技术导向特征。随着ChatGPT的技术日渐成熟,AIGC将在电商虚拟主播、教育、金融、医疗、影视娱乐等多场景爆发,并进一步催生元宇宙的快速发展。
(三)ChatGPT的技术发展路径ChatGPT的名称来源于它所使用的技术架构GPT,即GenerativePre-trainedTransformer,是一种强大的生成式预训练语言模型,能够完成复杂的自然语言处理领域(NLP)的任务,例如文本生成、机器翻译、代码生成、问答、对话AI等。GPT模型在上述任务中并不需要监督学习,但模型训练过程需要庞大的训练语料、模型参数和强大的计算资源。在结构上,GPT基于堆叠的Transformer组件进行编解码,通过提升训练语料的规模和质量、提升网络参数数量来完成GPT系列的迭代过程。近五年来GPT的发展过程也证明了:模型能力的提高与参数量和预训练数据量有直接关联。2018年,在自然语言处理领域(NLP)刚兴起时,OpenAI就推出的初代GPT,它的运行逻辑是:先通过无标签数据学习生成语言模型,并能够运用于一些与有监督任务无关的NLP任务中。此后再根据特定的下游任务进行有监督的微调,提高其泛化能力。常用的有监督任务主要有:(1)自然语言推理(NaturalLanguageInference):判断两个句子的关系,是包含关系、矛盾关系或者中立关系;(2)问答和常识推理(Questionansweringandcommonsensereasoning):通过输入的文章和若干个问题及其候选答案,输出为每个答案的预测概率;(3)语义相似度(SemanticSimilarity):判断两个句子是否语义相关;(4)分类(Classification):判断输入文本的指定类别。
在经过有监督的微调后,GPT-1的泛化能力会得到明显提升,且随着训练次数的增加,GPT-1的性能逐步提升。但是初代GPT仅仅使用了解码器decoder部分,其transformer结构中对于词向量的学习能力得到发挥,能够对实现较好地语言理解,适用于文本生成领域,但在通用语言和会话交流方面,还有较大的欠缺。
2.GPT-2:扩展了网络参数和数据集,进行多任务学习相较于初代GPT,2019年推出的GPT-2整体上结构和设计没有变化,但学习目标是使用无监督的预训练模型作为有监督学习的任务,其核心逻辑在于让所有有监督学习成为无监督语言模型的子集。换言之,GPT-2可以在数据量足够丰富且模型容量足够大时,通过训练语言模型就能够完成有监督学习的任务。实际训练中,GPT-2和GPT初代不同点在于:(1)更广泛的信息来源:在预训练时扩充NLP任务的数据集到40G;(2)更庞大的网络参数:将transformer的层数增加到48,隐层(hiddenlayer)维度扩展到1600,实现了15亿的参数量;(3)不再针对不同的任务建模微调(finetune):将机器翻译、自然语言推理、语义分析、关系提取等10类任务统一建模为一个分类任务,让模型在预训练中自己识别任务。
在性能方面,GPT-2可以在多个特定的语言场景下良好地完成NLP任务,除了语言理解能力外,还可以胜任翻译生成、故事编写、总结摘要等。这些能力基于海量数据和大量参数训练的词向量模型,不需要监督微调和额外的训练即可迁移,基本实现了元学习(meta-learnnig)。
同时,GPT-2能够让数据库中词向量包含的信息在多任务中通用,实现了信息脱离具体的NLP任务存在,也证明了随着模型容器和数据量扩充,GPT的无监督学习具有很大的提升空间。
3.GPT-3:海量参数,成就最强大的语言模型对比GPT-2,2020年推出的GPT-3最显著的特征是庞大的数据量和参数投入,整体训练过程耗资1200万美元,投入数据量达上万亿,模型参数量达到1750亿。虽然GPT-3延续了前两代GPT的技术架构,但改变了“大规模数据集预训练+下游数据标注微调”的方式,采用情境学习(in-contextlearning)来提高模型对话输出的性能。基于情境学习对于模型的引导,GPT-3在示例学习(X-shotlearning)中提升回答的准确性。在训练过程中,few-shotlearning将提供10-100个示例和任务描述供模型学习;one-shotlaerning提供1个示例描述;zeroshot则不提供示例,只是在测试时提供任务相关的具体描述。这三种学习方式的效果与模型容量成正相关,且多个示例学习的增强效果高于单个示例或不提供示例。换言之,在超大模型的训练下,GPT-3的匹配正确答案的准确率大幅提升。
在现存大量语言模型中,GPT-3的规模和语言能力几乎是最强大的。它能在不做finetuning的情况下,在一些传统的NLP任务中表现得更好,包括实现闭卷问答、模式解析、纯语言建模、机器翻译等;在新的领域,GPT-3将NLP的应用扩展到缺乏足够训练数据的领域,例如在开发程序代码、文章生成和信息检索领域取得了实质性的进展。此外,在UI设计、图像生成和艺术创作等领域,GPT-3的功能也更加强大,可以不经过微调就补全图像样本、或者实现简单的视图交互设计,将应用领域从语言处理领域逐渐拓宽。实现了从语言到图像的转向。
然而,GPT-3在推理和理解能力上还有较长的路要走。在自然语言推理(NLI)中重点关注句子之间的关系,由于GPT-3的阅读理解性能存在一定缺陷,在NLI任务中表现不佳;类似的,在物理、科学的常识推理技能表现中也存在一定问题。
4.InstructGPT和ChatGPT:更好地遵循用户意图、更少的虚假信息相较于GPT-3,OpenAI在2022年初发布了InstructGPT。该语言模型在GPT-3的基础上进行微调,并在工作原理上增加了对齐研究,强化InstructGPT模型的语义理解;同时,通过“基于人类反馈的强化学习(RLHF)和监督学习”来提高输出质量。具体地,开发人员可以将训练划分为三个阶段:第一阶段:冷启动阶段的策略模型。随机抽取用户提交的指令或问题,即prompt,并进行专业的人工标注,用这些指定的prompt和高质量答案共同微调GPT-3.5模型,使之初步具备理解输入指令或问题的能力。
第二阶段:训练回报模型(RewardModel,RM)。在第一阶段生成的众多结果中,根据结果质量由人工标注排序并作为训练数据,通过监督学习中的匹配排序(pair-wiselearningtorank)训练回报模型对语言模型预训练的输出结果评分,回答质量越高,分数越高。
第三阶段:采用强化学习来增强预训练模型的能力。利用第二阶段学好的RM模型更新预训练模型的参数,不断从prompt库中抽取新命令,通过PPO(ProximalPolicyOptimization)算法生成回答后,循环执行第一到三阶段进行强化训练,最终鼓励LLM模型能够输出更高质量的回答。虽然InstructGPT的参数量仅为13亿左右,相比于GPT-3缩小了100倍以上;但在遵循指令方面,能够更好地遵循用户意图,将有害的、不真实或者有偏差的信息输出最小化。在优化的模型上,ChatGPT基于InstructGPT进一步改进,在模型结构和训练流程上遵循上述方式,但收集和标注数据的方式上发生了变化。
InstructGPT模型需要先完成类似
(四)ChatGPT的优势与独特性目前,ChatGPT不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本,相较于以前的模型已具备较强的自然语言处理能力,具体来讲可归纳为以下几点:第一、更强的对话能力:ChatGPT支持多轮对话,在自然语言交互方面、情感分析、情景会话等方面运行流畅,在语言模仿能力和逻辑判断方面展现出更强的能力。
第二、更全面的语言能力:ChatGPT支持多种语言环境,并且支持长短句输入,在阅读理解、复杂语句处理、逻辑能力和文本生成方面更加灵活。
第三、更高精度的预测结果:ChatGPT的训练模型支持大规模数据集,具备海量的话题库,通用性更强。
(五)ChatGPT现存的缺陷和发展瓶颈1.精准性、真实性、重复率和依赖性尚待改善第一、由于技术实现的问题,ChatGPT会不可避免地写出一些似是而非、或者荒谬的答案,这将导致植入虚假数据和误导用户的风险。ChatGPT依然没有完全克服大型语言模型(LLM)的这一常见缺点,造成这个问题的原因主要有以下三点:(1)在训练和强化学习(RL)的过程中,数据集中没有对应的事实或标准答案的来源;(2)训练模型时谨慎性提高,为了避免误报等情况,可能导致模型拒绝可以正确回答的问题;(3)监督训练中行为克隆(BC,BehaviorCloning)对模型产生误导:当模型掌握的信息量高于训练者(humanexpert),模型会采集冗余信息;当训练者的常识信息量高于模型,基于常识的prompt较少,模型将基于先验知识去边缘化未观测到的变量,从而导致信息失真。
由于具有庞大数据训练量,即使经过人工监督学习和奖励机制调整,一些错误或者编造的信息会逃过人工智能审核机制,成为ChatGPT的输出答案的隐患。尤其在语言生成能力和逻辑能力大幅提高的框架下,ChatGPT会让虚构的事实看似合理化,增加人工智能审核的难度。
此外,随着信息传播速度的加快,以及CharGPT具有大规模且快速生成流畅文本的能力,真实性未得到验证的信息可能在多个平台或网站快速散播,导致真实用户的发声或者正确的信息被淹没。
第二、在较长的会话中,由于训练数据的偏差和过度修正,ChatGPT会过度强调某些短语或者句子,导致重复性高的问题。例如它会重申它是由OpenAI训练的语言模型,这可能源于训练者对模型回答全面性的优化。而且,ChatGPT对多次调整输入措辞或尝试相同的输入指令也会很敏感。例如,给定一个问题,模型可以声称不知道答案或拒绝回答,但在指令稍作调整后,ChatGPT也会识别并回答。
第三、ChatGPT的强大能力依赖语料库、数据量的抓取和复杂的训练过程,训练成本和所需算力的成本都很高。如果数据库的收录内容质量不高或者数据量不够大,将会影响生成文本内容的质量和精细度,而且ChatGPT模型训练和优化过程较为复杂,需要专业的人员进行操作,训练成本和所需算力的成本都很高。最重要的是,ChatGPT模型依赖于大规模离线语料进行训练,往往不能充分接受并采用在线提供的即时信息,难以理解对话中提及的因果关系,也无法基于已有信息进行推测,这距离人类举一反三的能力相差较远。
2.发展瓶颈:人工智能的安全性和伦理约束ChatGPT本身的缺陷或许可以通过收集更多、更丰富的语料库,提高训练和优化的效率和质量,以及开发人工智能检查和修改的工具来改善,但是更深层次的,ChatGPT引起了人们对AIGC行业中安全性、伦理约束和创造力的思考。
由于RLFH并不能完全避免ChatGPT训练库中学习到的不道德或有偏见的回答,也会导致在模糊提示或引导回答的过程中让ChatGPT输出一些有害信息,导致输出结果的安全性降低。
由于人工智能缺乏对伦理和常识的价值判断能力,也没有有效的约束方式,一旦模型存在不安全输出的可能性,ChatGPT将容易被滥用。因此,为了提高ChatGPT输出内容的真实性和安全性,减少或拒绝有害信息的输出,在ChatGPT模型中添加限制或内置“内容安全过滤”模块是必要的。目前OpenAI正在进行相关研究,增强GPT系统对用户意图的理解,并视情况筛选指令执行,推动自然语言交互工具的安全性提高。
此外,在创造性、创作伦理和知识产权等方面并未形成有效界定。在数据挖掘、大规模计算、统计、多线程工作等数据处理分析领域,人工智能有着人类不可比拟的优势,但是以“创新和感知”为基础的创造过程是机器学习和模型难以训练的。目前ChatGPT能够在用户的引导下快速生成小说、诗歌、散文、编程等需要创造力的内容,或许将对创作者和以版权为基础的行业造成冲击。文本生成的过程是基于数据库内容的学习,这是否会构成对被抓取作品的侵权,ChatGPT生成的文本内容是否具有著作权,是否属于该用户等等一系列问题的答案尚不明确。
(六)ChatPGT可能的应用场景1.当前针对现有行业、尤其是搜索引擎替代性的讨论:目前ChatGPT在编程、文本生成等NLP领域强大的能力引发了部分行业的担忧。例如由于ChatGPT拥有基于对话形式接收输入指令并输出结果的能力,与传统的搜索引擎功能具有一定重合。但对比来讲,传统的搜索引擎暂时还不能被取代,主要有以下原因:第一、两者侧重的功能和优势不同。搜索引擎是一种信息检索系统,通过对海量信息的索引和检索,为用户提供快速、准确的查询结果。搜索引擎能够返回多条查询的结果、准确率较高,并且搜索引擎不会对信息做出判断,完全呈现结果等待用户的筛选;但是ChatGPT是一个自然语言处理模型,通过接收用户的输入指令,匹配并输出相应的单一结果。由于训练模型会对结果进行筛选等原因,仅返回的单一结果,以确保与用户对话过程的流畅性。
第二、两者的应用领域不同。搜索引擎的信息库抓取信息快、信息库更频率高、存量大,主要用于帮助用户快速查找匹配信息、找到感兴趣的信息,常常应用在文献检索、互联网搜索等领域;而ChatGPT的语料库来源于离线数据,输出的文本存在虚假信息的可能,且吸纳新的知识需要对模型进行再训练和微调,这会导致训练成本和甄别成本上升,因此主要应用于人机对话、智能客服、智能问答等强逻辑性的自然语言交互领域。
除此外,ChatGPT目前还处于测试阶段,短期内将不会对现有行业,尤其是传统信息检索工具造成冲击,也并不具备取代某些行业的能力。然而,如果未来ChatGPT的内容质量和训练成本的问题能够得到解决,或许长期来看,搜索引擎将迎来技术革命,形成更亲和的交互界面和内容生成,也将挤压部分机械重复性较强的行业。
2.未来的应用领域ChatGPT的能力目前几乎可以涵盖各个自然语言交互领域,如聊天机器人、对话系统、智能客服、信息检索、主题建模、文本生成和总结、NLP作为服务的翻译、转录、总结等等。例如,在聊天机器人领域,目前ChatGPT已经能基本满足用户的提供个性化需求和信息提供服务;在需要智能客服的电商、金融、医疗、教育、政务等垂直领域等,ChatGPT能够结合行业特点和需求,构建自动应答系统,为客户提供快速、准确的问题解答。
除此外,在传媒、娱乐、设计和影视领域,ChatGPT能够协助完成一些较低层次的任务,包括文稿生成、采访助手、摘要总结等,或将提高行业的运行效率。
3.商业化落地方式还待探索第一、由于GPT-3的训练耗资巨大,且需要大量的数据集和算力,即使ChatGPT未来应用前景广阔,如果不能降低模型的更新训练成本和推理成本,将限制中小B端企业的采购意愿。第二、目前正在免费测试阶段的ChatGPT还未解决GPT-3模型存在的准确性和安全性问题,还需要进一步优化迭代。此前,OpenAI已尝试过通过API接口的方式推动GPT-3的商业化,但由于模型问题并未通过测试阶段。虽然目前OpenAI已找到方式优化输出虚假信息的问题,但效力远远不足。如果不能解决这两个问题,GPT的商业化道路还需等待。
七)投资建议ChatGPT代表自然语言处理技术一大进步,利好相关AI公司的技术与产品落地,可重点关注拓尔思(300229.SZ)、商汤-W(0020.HK)、科大讯飞(002230.SZ)。
(八)风险提示技术研发不及预期的风险;商业化落地方式尚不明确的风险;下游需求不及预期的风险。