分论坛 > 杭州 > 新闻动态
端侧智能迎来“能力密度”革命,业界共研协同智能新生态
2025-11-28 阅读量:7 小字

        1122日下午,由中国计算机学会(CCF)主办,CCF YOCSEF杭州承办的技术论坛“芥子纳须弥:端侧大模型的发展路径探索”在浙江海外高层次人才创新园举行。

    论坛由CCF YOCSEF杭州AC委员余宙和周武杰共同担任执行主席,邀请复旦大学人事处副处长陈涛教授、阿里巴巴-淘天集团高级算法专家陈志文、清华大学博士后肖朝军担任引导嘉宾,浙江大学百人计划研究员王则可、西安电子科技大学特聘教授廖良,浙江大学百人计划研究员张圣宇担任特邀嘉宾。

    论坛吸引了来自全国高校、科研院所与龙头企业的40余位代表参会,共同探讨端侧大模型的发展路径问题。

与会全体人员合影

    依靠海量数据训练得到的大模型在各种通用场景下展现了强大的能力。然而,常见的大模型只能在高性能计算集群中部署应用。如何“纳须弥于芥子”,在算力、内存有限的端侧设备中(如手机、PC、嵌入式硬件)设计能高效部署运行的端侧轻量级大模型是当下学术界和工业界的研究热点。本次论坛探讨端侧大模型的前沿技术与创新应用,展望实现端侧智能的愿景与挑战。

论坛现场

引导发言

一、大模型的高效训练和推理技术以及在具身场景的应用

陈涛做引导发言

    复旦大学陈涛系统阐述了大模型时代在训练和推理中面临的高计算成本、存储开销和硬件适配等挑战。他指出,传统模型压缩方法(如卷积神经网络优化)已不适用于大模型,当前难点在于如何平衡训练效率(如数据和计算资源)与部署性能(如推理代价和硬件兼容)。针对训练、微调、推理和压缩等阶段,团队研发了多种高效技术:包括基于泰勒展开的网络重塑以节省存储并实现加速、激励式训练以提升模型性能而不增加数据或算力、MoE结构优化降低计算负载、动态硬件适配实现一个模型跨平台部署,以及混合稀疏和量化压缩技术。关键点在于,这些技术不仅显著提升压缩率和加速效果,同时保持模型性能稳定,并成功应用于手机端拍照增强、车载目标分析和无人机巡检等具身场景,体现了“技术高效性需以实际部署效果为核心”。他强调,要跨越从技术到应用的鸿沟,需从原理层面深入探索,推动具身智能的加速发展,并呼吁产业、科研与应用的协同引导。

二、淘天端侧 AI 探索——多模态大模型与高性能推理引擎MNN

陈志文做引导发言

    阿里巴巴-淘天集团陈志文阐述了在淘天业务场景下,将AI模型从云端部署到手机等终端设备(端侧)的必要性与挑战。他指出,云端推理存在延迟、成本和隐私问题,而端侧AI可实现实时响应、节省成本并保护用户隐私。然而,将大模型(尤其是多模态大模型)部署到资源受限的终端上面临内存、算力和功耗三大核心挑战。例如,一个7B参数的模型需要经过极致的INT4量化才能运行在手机有限的内存中。针对这些挑战,其团队研发了高性能端侧推理引擎MNN,并通过一系列技术进行优化:

1. 内存优化:采用低比特量化(如INT8/INT4)和动态输入量化,显著降低模型内存占用;

2. 推理加速:在CPU上利用SIMD指令集,在GPU/NPU上调用专用计算库,并采用推测解码等先进算法,大幅提升生成速度;

3. 多模态扩展:针对语音、图像生成等模态进行专项优化,以提升端侧多模态交互的实时性。

    他特别指出,技术的有效性最终体现在用户体验上。端侧AI的“最后一公里”是延迟,例如,语音助手的第一响应时间若超过1.5秒,用户体验将急剧下降。因此,所有技术优化的核心目标是在保证模型能力的同时,满足端侧部署的严苛性能指标。目前,相关技术已支撑了淘天内部的多种端侧AI应用,并通过开源和“MNN Chat”应用与社区共享成果。他强调,未来端侧AI的发展关键在于硬件协同优化与更低比特的量化技术,以推动更强大模型在终端上的高效部署。

三、MiniCPM高效端侧大模型

肖朝军做引导发言

    清华大学肖朝军阐述了其团队在构建高效能端侧大模型MiniCPM上的探索与突破。他开篇指出,当前大模型发展面临“ Scaling Law 撞墙”的瓶颈,即依赖数据与算力指数级增长的模式不可持续。为此,团队提出“能力密度”作为核心衡量指标,即达到同等智能水平所需的基本模型参数量与目标模型参数量的比值,并观察到模型的“能力密度”正呈指数级提升(约每3年翻一番),这意味着实现特定智能所需的模型尺寸和开销正急剧下降。

    基于此洞察,团队从四个技术路径构建高能力密度的MiniCPM模型:

1. 架构创新:提出原生稀疏注意力机制,在保持与稠密注意力参数不变的前提下,将长文本处理的复杂度从平方级降至线性,实现了长上下文能力与计算效率的平衡,且无需昂贵的从头预训练。

2. 软硬协同:在推理端进行深度优化,包括提出轻量化推测解码,通过裁剪草稿模型词表减少计算开销,实现20%的额外加速;并探索极致的三值量化技术,仅需少量增量训练即可达到优于同类模型的性能。

3. 数据工程:开源了高质量预训练数据集,并创新性地采用基于模型训练动态的客观数据筛选方法,替代主观的人工打分,以极低的算力开销高效筛选出能真正提升模型性能的“优质数据”。

4. 训练算法:利用缩放定律精准预测下游任务性能以指导训练策略,并应用异步强化学习算法实现负载均衡,提升训练效率。他总结道,实现高效端侧智能的核心在于不断提升模型的“能力密度”,并通过架构、软硬协同、数据与算法的系统化创新,让强大的模型能力能在资源受限的终端上触手可及。未来,团队将继续致力于推动模型向更小、更智能、更高效的方向发展。

 

执行主席为引导嘉宾颁发感谢牌

思辨环节

    在引导报告之后,与会嘉宾围绕怎么定义“端侧大模型”? 端侧大模型是否是刚需?什么应用场景真正需要用到端侧大模型?在资源受限的端侧设备上应用,端侧大模型最需要哪些能力?端侧大模型的功能和能力边界在哪里?为了提升端侧大模型的能力,在模型、算法、计算框架等各方面还有多少剩余价值可以挖掘?是否有更具潜力的新路径?三个核心议题展开了深入思辨。

与会嘉宾参与思辨

思辨议题一:怎么定义“端侧大模型”? 端侧大模型是否是刚需?什么应用场景真正需要用到端侧大模型?

    与会专家围绕“端侧大模型”的定义、必要性与应用场景进行了深入探讨。尽管对“端侧”的精确边界(如是否包含插电的“个人超算”设备)存在技术性讨论,但与会者普遍认为,端侧大模型的核心价值在于满足云端模型难以企及的三大刚性需求:1. 极致低延迟与高可靠性:在自动驾驶、工业控制等场景中,毫秒级的响应和100%的可靠性是云端网络无法保证的,必须依赖端侧实时决策。2. 强隐私保护与数据主权:多位专家强调,当处理个人健康数据(如医疗影像)、日常对话或第一视角画面(如智能眼镜)时,用户极度敏感,数据不出端是赢得信任的前提。有专家生动指出,若视障人士的全部视觉信息都上传云端,将构成可怕的“隐私噩梦”。3. 离线可用性与网络独立性:在矿山、深海、偏远地区或网络不稳定的移动环境(如高铁、地铁)中,端侧模型是确保功能连续性的唯一选择。在此基础上,专家们描绘了多个“杀手级”应用场景:

  • 个人智能体:真正的个性化、具有“记忆”和“羁绊”的AI伴侣或私人助手,其核心在于端侧的长期学习和隐私保障。
  • 行业专用设备:医疗筛查设备本地化以保护患者隐私并降低部署成本;企业的AR/VR培训系统通过端侧实现多终端实时、同步的沉浸式互动。
  • 分布式系统:未来的机器人、卫星或智能设备,可通过各自搭载的端侧“小脑”模型进行自主协同,完成复杂任务。
  • 争议与补充:有专家指出,端侧大模型是“需求”但未必是普罗大众的“刚需”,其普及受限于硬件成本。讨论最终形成的共识是:端侧与云端并非替代关系,而是互补协同的共生关系。云端提供无限的算力与灵活性,而端侧则守护着体验的底线——实时、私密、可靠。

思辨议题二:在资源受限的端侧设备上应用,端侧大模型最需要哪些能力?端侧大模型的功能和能力边界在哪里?

    围绕端侧大模型的能力与边界,与会专家进行了深入辨析,形成了以下核心观点:

一、端侧大模型最需要具备的核心能力

1. 轻量高效推理能力:这是在资源受限终端上运行的根本前提。专家指出,核心挑战在于如何在算力、延时和精度之间找到最佳平衡点,确保模型“跑得动、跑得快、效果尚可”。

2. 场景感知与自适应能力:这是实现“智能”的关键。端侧模型必须能感知所处环境(如在马路还是图书馆),并动态激活相应的能力模块,实现“按需推理”,以节省资源。更重要的是具备持续学习与个性化进化的能力,能够根据用户习惯和环境的实时反馈进行自我迭代,而不必每次都依赖云端重新训练。

3. 多模态理解与融合能力:终端设备(手机、眼镜、机器人)天生配备多种传感器,端侧大模型必须能高效处理并融合图像、语音、文本等异构数据,才能支撑起丰富的交互与应用。

4. 软硬协同优化能力:专家强调,端侧模型的性能瓶颈不仅是算法问题,更是系统工程问题。必须面向特定硬件的计算特性进行深度优化,才能将理论算力转化为实际的效率提升。

二、端侧大模型的能力边界

1. 算力与存储的天然上限:这是最刚性的边界。以当前最强性能的手机为例,其内存仅能支持约150亿参数的模型,这与动辄数千亿的云端大模型存在几十甚至上百倍的差距。这直接导致了:1)难以存储和维护海量通用知识;2)难以进行超大规模的语言生成和复杂规划;3)难以支持超过5万长度的上下文;4)无法像云端模型一样便捷地进行联网搜索,获取最新信息。

2. 感知硬件的制约:专家提出“感知决定智能”的尖锐观点。即便模型本身能力再强,也受限于终端传感器的性能。例如,部署在低分辨率卫星上的模型,永远无法识别出像素级的小目标;缺乏连续时空感知能力的模型,也无法完成需要因果推理的复杂任务。

3. 复杂任务的局限性:在自动驾驶等场景中,当前端侧大模型在3D空间感知等能力上仍较弱,仍需与传统小模型互补;同时,面对全新场景时,泛化能力和快速自适应能力仍显不足。

三、突破边界的前瞻思路多位专家提出了超越单纯优化现有模型的思路:

1. 任务调度与编排:端侧模型不必“大而全”,可以作为一个智能调度器,将复杂任务分解并分派给云端或其他垂直领域的专业模型,自身专注于协调与汇总。

2. 自动化模型生成:未来的端侧模型可以是“被创造物”。由更强大的云端“母模型”根据用户的具体任务,自动为其生成、组装并优化一个最适合的专用端侧小模型。

3. 模型网络与协同:探索如何让众多已有的端侧与云端模型形成一个“模型网络”,通过相互通信和知识传递来协同进化,而非各自孤立训练。

思辨议题三:为了提升端侧大模型的能力,在模型、算法、计算框架等各方面还有多少剩余价值可以挖掘?是否有更具潜力的新路径?

    围绕“提升端侧大模型能力的技术路径与潜力”这一议题,与会专家从模型架构、算法优化、计算框架等维度进行了深入探讨,一致认为端侧大模型的技术创新仍处于“蓝海”阶段,存在大量剩余价值可挖掘,并提出了若干具突破潜力的新路径。核心观点如下:

1. 模型架构:稀疏化与高效设计是核心方向

    专家指出,传统稠密架构在端侧受限于算力与存储,稀疏注意力机制通过降低计算复杂度至线性,实现了长上下文处理与效率的平衡,且无需昂贵重训练。类似地,状态空间模型等线性复杂度架构因其高效性,在端侧展现出潜力。剩余价值在于进一步探索动态稀疏模式与硬件原生支持的架构,以适配多级存储体系。

2. 算法优化:轻量化技术与持续学习是关键突破口

    量化、蒸馏、剪枝等传统轻量化算法仍有优化空间:极低比特量化结合增量训练可逼近全精度模型性能;推测解码通过轻量化草稿模型词表裁剪,可实现20%额外加速。专家强调,未来重点在于部署后的持续学习能力,使模型能根据用户行为与环境反馈自我迭代,而非依赖云端重训练。同时,不确定性评估算法亟待加强,以帮助端侧模型判断何时需云端协同,提升系统可靠性。

3. 计算框架:软硬协同与自动化设计潜力巨大

    端侧性能瓶颈本质是系统工程问题,软硬协同优化远未充分挖掘:需针对特定硬件定制算子与内存调度策略。新兴方向包括:自动化框架生成:通过强化学习或大模型驱动,自动优化计算图与算子实现,以匹配端侧硬件特性;多级存储利用:基于“存储增长快于算力”的硬件趋势,设计参数分级加载机制,将高频参数驻留内存,低频参数动态卸载,突破端侧模型规模限制。

4. 新路径:模型协同与生态化演进或成终极方案

    专家提出若干颠覆性思路:模型协同网络:由云端大模型作为“调度中枢”,动态分解任务并生成专用端侧小模型,实现“智能创造智能”的自动化流水线;云--边协同生态:端侧聚焦感知与实时响应,复杂任务通过调度框架分派至边缘或云端,形成“端侧执行-云端赋能”的分布式智能体系;脑科学启发架构:借鉴人脑多通路处理机制,设计异构模块化模型,提升端侧在开放环境中的泛化与鲁棒性。总结:端侧大模型的技术栈远未饱和,剩余价值遍布架构、算法与框架各层。未来竞争将不仅限于单一模型优化,而是转向 “协同智能”生态构建——通过云端联动、自动化生成与软硬深度融合,实现端侧能力在有限资源下的指数级提升。

执行主席为特邀嘉宾颁发感谢牌

    本次论坛活动得到了浙江省海外高层次人才联谊会(海高会)青年分会的大力支持。论坛主席向海高会青年分会表示了感谢。

执行主席为支持单位颁发感谢牌

    最后,YOCSEF杭州副主席翁微妮为本次“端侧大模型”技术论坛作总结发言。她高度肯定了论坛取得的丰硕成果,指出本次论坛不仅汇聚了领域内的前沿技术洞察,更在思辨环节展现出极高的参与度——超过90%的与会专家积极参与了三大议题的深度思辨,围绕端侧大模型的技术路径、能力边界与协同范式展开了多轮富有建设性的交锋与探讨,为端侧智能的未来发展注入了多元而深刻的见解。

翁微妮作总结发言

通过一个下午的热烈讨论,参会的各位嘉宾充分交流了当前端侧大模型技术的前沿进展、在资源受限环境下实现高效能所面临的核心挑战,以及其在自动驾驶、个人智能终端、工业应用等场景中的巨大潜力。通过三个思辨议题的深入探讨,大家明确了端侧大模型在架构设计(如稀疏注意力)、算法优化(如量化与持续学习)及软硬协同计算框架等方面的技术路径,并前瞻性地探索了“模型协同网络”等更具潜力的新范式。本次论坛形成的共识与思想结晶,将为致力于推动智能终端普惠化的研究者与从业者提供宝贵指引,共同促进端侧智能技术的高质量发展。

 

CCF聚焦