首页 - 股票 - 研报 - 行业研究 - 正文

科技前瞻系列专题:国际巨头的端侧AI布局

来源:西南证券 作者:王湘杰,杨镇宇 2024-06-06 16:36:00
关注证券之星官方微博:
(以下内容从西南证券《科技前瞻系列专题:国际巨头的端侧AI布局》研报附件原文摘录)
1.1.1苹果AI:模型侧:MM1
3月苹果正式公布自家的多模态大模型MM1,MM1是一个具有最高300亿参数的多模态LLM系列。MM1由密集模型和混合专家(MoE)变体组成,具有300亿、70亿、30亿参数等多个版本。MM1不仅在预训练指标中实现最优性能SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
得益于大规模多模态预训练,MM1模型在上下文预测、多图像和思维链推理等方面表现不错。MM1模型在指令调优后展现出强大的少样本学习能力。在几乎所有基准测试中,苹果的MoE模型比密集模型取得更好的性能,显示MoE进一步扩展的巨大潜力。
1.1.2苹果AI:模型侧:OpenELM
4月26日,苹果宣布了更大的端侧AI推进,推出全新的开源大语言模型OpenELM。OpenELM包含2.7亿、4.5亿、11亿和30亿个参数的四种版本,定位于超小规模模型,运行成本更低,可在手机和笔记本电脑等设备上运行文本生成任务。同时,公司开源了OpenELM模型权重和推理代码、数据集、训练日志、神经网络库CoreNet。
OpenELM使用了“分层缩放”策略,来有效分配Transformer模型每一层参数,从而提升准确率。在约10亿参数规模下,OpenELM与OLMo相比,准确率提高了2.36%,同时需要的预训练token数量减少了50%。
OpenELM的基准测试(数据类型BFloat16)在工作站(配备英特尔i9-13900KFCPU、RTX4090GPU,24GBDDR5内存),以及M2MaxMacBookPro(64GB内存)运行。
1.1.3苹果AI:模型侧:Ferret-UI
4月8日,苹果展示了多模态模型Ferret-UI。Ferret-UI系统可以理解手机屏幕上的应用程序内容,专为增强对移动端UI屏幕的理解而定制,其配备了引用(referring)、定位(grounding)和推理(reasoning)功能。Ferret-UI具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面(UI)屏幕并与其有效交互的能力。Ferret-UI与OpenAI近期发布的GPT-4o、谷歌近期发布的Gemini1.5Pro在功能上异曲同工。
Ferret-UI可执行从基本到复杂任务等11种任务。它能在移动UI屏幕上使用灵活的输入格式(点、框、涂鸦)执行指代任务(例如控件分类、图标识别、OCR)和定位任务(例如查找控件、查找图标、查找文本、控件列表)。这些基本任务为模型提供了丰富的视觉和空间知识,使其能在粗略和精细级别(例如各种图标或文本元素之间)区分UI类型。这些基础知识对于执行更高级的任务至关重要。具体来说,Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还可在交互对话中提出面向目标的动作,并通过功能推理推断出屏幕的整体功能。





微信
扫描二维码
关注
证券之星微信
APP下载
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示西南证券盈利能力较差,未来营收成长性一般。综合基本面各维度看,股价合理。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-