首页 - 股票 - 研报 - 行业研究 - 正文

计算机行业周报:AI Agent,从API到GUI交互,Operator重塑流程化

关注证券之星官方微博:
(以下内容从德邦证券《计算机行业周报:AI Agent,从API到GUI交互,Operator重塑流程化》研报附件原文摘录)
投资要点:
OpenAI首款AI智能体Operator发布,依托CUA模型取得全新的SOTA。北京时间1月24日凌晨,OpenAI首款AI智能体Operator亮相。Operator由Computer-Using Agent(CUA)新模型提供支持,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。期间,用户可以添加其他指令和随时接管控制,Operator还可以同时运行多项任务,并在关键操作中会要求用户确认。目前,Operator已面向美国Pro套餐用户开放,下一步将扩展至Plus、Team以及Enterprise用户,并在未来将相关功能集成至ChatGPT当中。OpenAI表示,CUA仍处于早期阶段且存在局限性,但仍取得了最新的SOTA。在OSWorld上实现38.1%的完整计算机使用任务成功率,在WebArena上实现了58.1%的成功率,在WebVoyager上实现87%的Web端任务。
Operator融合视觉识别与高级推理,跨越API实现复杂步骤规划。早在2024年10月,Anthropic推出革命性功能——Computer use,可通过API即可实现AI与PC交互。此次CUA将GPT-4o的视觉功能与通过强化学习获得的高级推理相结合,经过训练可以与图形用户界面(GUI,即人们在屏幕上看到的按钮、菜单和文本字段)进行交互。也就是,Operator可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在Web之上执行操作且无需自定义API集成。一旦遭遇难题或者错误,Operator还可利用其推理能力实现自我纠正。具体地,Operator通过以下三步循环迭代完成操作。1)感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照;2)推理:使用思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作;3)行动:执行操作(单击、滚动或键入),直到它决定任务已完成或需要用户输入。
AI Agent将是生成式AI的下一个前沿,2024年市场规模达50亿美元。据《科创板日报》不完全梳理,国内外科技大厂转向AI Agent。微软在其Dynamics365平台一口气推出10个自主AI智能体,称相当于187名全职员工的产出;谷歌发布号称“智能体时代”最强大模型Gemini2,提供多模态开发接口,让智能体能“看懂”物理世界;华为公布了一项可让AI像人类一样操作手机的新研究成果。而在Operator发布当日,智谱将GLM-PC1.0升级至GLM-PC1.1,深度融合多模态模型CogAgent与代码模型CodeGeex,以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力。我们认为,随着龙头厂商接连入局,AI Agent将加快技术迭代,充分挖掘下游应用场景,具备广阔的发展空间。根据Markets&Markets的预测,到2030年,AI代理的市场规模将从2024年的50亿美元激增至470亿美元,年均复合增长率为44.8%。
投资建议。建议关注:博睿数据、泛微网络、金蝶国际、鼎捷数智、汉得信息、彩讯股份、梦网科技、致远互联、普联软件、金证股份、中科创达、普元信息。
风险提示:技术迭代不及预期、AI Agent商业化不及预期、地缘政治冲突等。





微信
扫描二维码
关注
证券之星微信
APP下载
好投资评级:
好价格评级:
证券之星估值分析提示梦网科技盈利能力较差,未来营收成长性较差。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-