2024年12月7日14:00
由中国计算机学会(CCF)主办
CCF YOCSEF厦门组织& CCF YOCSEF上海协办
技术论坛|大模型-万卡训练的存算之道
在厦门市厦门大学翔安校区信息学院3号楼302会议室进行
论坛执行主席由沈志荣(CCF YOCSEF副主席,厦门大学信息学院副教授)和高聪明(CCF YOCSEF厦门AC委员、厦门大学信息学院副教授)共同担任,线上主席由许清泉(美图公司、CCF YOCSEF厦门AC委员)及陈章汉(施耐德电气信息技术(中国)有限公司,CCF YOCSEF厦门学术秘书)担任。本次论坛议程主要有引导发言、思辨环节2个部分。
吕熠娜(厦门大学)为现场嘉宾带来主题为《长上下文LLM场景下的KVcache全局池化(以Mooncake为例)》发言。她解释了全局池化在长文本上下文处理中的作用至关重要,其优化了模型架构和资源利用,提升了计算效率并降低了开销。大模型的长文本处理优化依赖于流水化P+KV Cache传算重叠机制,通过这种方法,计算与数据传输之间实现了高度协同,提高了资源利用效率。在实际计算中,本地命中的数据会直接通过计算生成中间结果,并快速存储至内存池。全局命中的数据则需要从全局读取到本地,经过处理延迟后完成前缀加载与计算。在此过程中,各层之间的数据传输与计算是高度重叠的,每一层的K向量和V向量计算与上一层的数据传输同步进行,从而显著减少了等待时间。
石亮(华东师范大学)以《多模态大模型训练的存储系统建设探索》为主题进行了深入探讨。他指出大模型训练的基础架构可分为计算节点、网络和存储集群三大部分。在计算层面,企业通常采用万卡级GPU集群;网络层面,需同时处理计算节点间高速通信和存储节点间数据交换;存储层面,关注训练数据管理和快照技术。针对万卡集群的任务调度和容错,系统需要支持多模型并行训练及推理任务,同时具备异常检测和故障恢复能力,确保高效可靠运行。这为大规模分布式训练提供了关键技术支撑。此外,在多模态大模型训练中,存储系统需针对训练数据的访问特征优化设计。分析显示,多模态数据通常具有海量小文件、高共享性、随机读访问和突发性I/O需求等特点。然而,随着数据集规模的快速增长,存储I/O已成为主要瓶颈,导致GPU利用率显著降低。
马安坤(华为公司)以《大模型行业落地应用的理想与现实》展开分析讨论。他首先介绍了大模型的发展规律及其落地挑战关键点,包括参数采样与泛化能力、算力与分布式挑战、集群可用性与故障恢复和集群可用性与故障恢复。此外,他也进一步阐述了大模型训练解决方案应该更加聚焦高性能、高可用和高应用等方向,同时可开展算力与能耗管理、网络优化和故障恢复等优化。他认为实现高性能大模型训练的管理优化,应该聚焦以下关键点,包括跨域问题排查与管理、算力监控与调优和开放生态构建。
唐璐(厦门大学)指出存算分离和协同的选择需结合任务特点,针对瓶颈问题优化,以提高效率并满足特定性能需求。例如在图像预处理为主的训练场景中,由于CPU预处理和I/O操作延迟导致GPU利用率低,通过算存分离解耦计算与存储,提升GPU利用率并缩短训练时间;而在大模型推理中,由于KV Cache资源需求不确定且占用内存资源大,成为性能瓶颈,可通过对KV Cache的池化优化,结合推理计算特征紧密协作,显著加速推理性能。戈维峰(复旦大学)紧接着提出存算分离适合资源受限场景,通过逐层加载和临时存储突破GPU内存限制,显著扩展任务规模;存算协同则通过优化GPU与CPU间通信提高效率,尤其在数据密集型任务中。两者结合是大模型训练性能优化的关键。沈志荣(厦门大学)认为在资源有限的小型实验室中,大模型训练面临高成本和设备不足的问题。相比复杂的存算协同,存算分离更具可行性。通过分析应用特征,针对性优化数据布局与调度,以较低成本实现可行的研究进展。建议从分离模式入手,聚焦细分问题,通过逐步优化在有限资源下取得成果,这是小规模研究团队的现实路径。周奕毅(厦门大学)认为在大规模GPU集群中(如500卡规模),存算分离和存算协同的优缺点因需求和资源分配而异。早期因经验不足,存算分离成为主流选择,尤其在通讯带宽受限和多GPU效率降低的情况下,有助于简化设计并分步优化。然而,随着需求增长和技术深入,存算协同逐渐显现其必要性。鄢兴雨(智谱华章)展开进一步剖析,认为存算分离与协同的本质是任务在哪执行的问题,与模型本身的理解深度无直接关联。只在有损计算时,才需深度了解模型以判断哪些计算对输出影响最小。大部分情况下,只需关注数据表示与处理即可。存算优化应更多基于数据和算力的适配性,而非模型深度理解的强制要求。
戈维峰(复旦大学)首先发言,他指出存算优化决定系统的下限,而模型优化决定其上限。存算优化通过提升硬件资源利用率(如改进带宽分配、多卡协同等),确保现有算力的潜力被最大化利用。模型优化则通过算法调整和设计,进一步挖掘性能,突破硬件资源的限制,实现更高效的计算。例如,在带宽有限的场景中,存算优化可改善多卡协同效率,而模型优化则通过异步计算等方法提升计算能力。两者结合,既能弥补资源不足,又能释放模型潜力,是实现大模型高效运行的关键。周奕毅(厦门大学)指出在万卡场景下,硬件性能接近极限时,模型优化是更优解;当前大模型难以像传统聚类任务那样简单分布式处理,因推理过程对结构完整性要求高。通过模型优化,例如分组推理,将计算任务分解并在各节点聚合结果,理论上可提升效率,同时缓解硬件性能瓶颈。石亮(华东师范大学)认为高成本的万卡场景导致入门门槛过高,利用率常低至40%-50%,资源浪费严重。核心解决方案需从存算架构优化入手,通过合理设计系统,提高硬件资源利用率,同时降低训练和推理成本。高聪明(厦门大学)提出在万卡场景下,训练和推理的优化方向应区分对待;当前资源利用率低(约30%-40%)的问题,优先需要通过存算优化提升硬件利用效率,解决基本的算力浪费问题;而在实现基础优化后,模型优化应作为下一步重点,进一步提升模型智能化水平,以更好满足市场需求。穆清(信息工程大学)指出硬件的性能上限决定了系统的基础能力,而模型优化决定了智能化的上限。在现有硬件性能达到稳定水平(如80分以上)后,优先考虑模型优化更为合理,因为硬件架构的调整往往牵一发而动全身,风险和成本极高,需慎重评估;硬件创新应建立在充分测试和广泛应用基础上,否则新架构可能引入不可预见的问题;在硬件条件允许的情况下,建议优先通过模型优化提升应用智能化,以避免因底层架构调整带来的高风险和复杂性。鄢兴雨(智谱华章)认为优化的核心在于定位流程中的瓶颈,而非单纯讨论硬件更换或模型优化的优先性。如果资源(如算力)已经充足,瓶颈可能出现在模型设计或算法层面,此时模型优化更重要。而如果硬件性能不足,则需优先考虑存算优化或硬件升级。
鄢兴雨(智谱华章)首先介绍了存算集群的主流做法,他指出在集群训练中,默认假设训练崩溃不会引发污染问题。当发生错误时,可通过备份与机器隔离机制确保训练持续进行。石亮(华东师范大学)认为在大模型训练中,对错误的容忍与处理需视其影响程度而定。轻微错误若影响有限,可采取容错策略,无需中断训练,从而减少停滞时间并提升效率。对于严重错误,如硬件故障或关键参数丢失,则需回退至检查点进行全面恢复。刘锦江(intel)从企业角度分析,硬件的可靠性和环境差异性使得大模型训练中的纠错机制显得尤为重要。不同设备的疲劳曲线和使用状态差异,决定了中断后恢复计算的复杂性远高于连续计算。陈美丽(厦门云计算)认为在大模型训练和项目管理中,是否应该不拘小错取决于阶段性目标与整体成果之间的平衡。在万卡场景下,训练的不稳定性可以容忍一定的小错,以加速目标实现并维持项目进度。吴镕龙(厦门大学)认为在高故障率的万卡集群环境中,是否锱铢必较需取决于成本和收益的权衡。日常高频率故障(如每天两次)的修复会导致大规模计算资源浪费,代价高昂,因此从技术角度来看,关键节点的稳定性需要严谨对待。
随着四小时的激烈讨论和思想碰撞,论坛即将落下帷幕。在结束之际,两位执行主席对论坛进行了精炼的总结,并向所有引导嘉宾和思辨嘉宾的卓越贡献致以深深的谢意。同时,也向每一位积极参与的现场嘉宾和辛勤工作的筹备组成员表达了诚挚的感激。我们满怀期待,在CCF的平台上见证更多的合作与交流。让我们共同期待,在2025年3月16日举办的《数智时代下数字素养教育如何提质增效?》观点论坛上,再次相聚,共同探讨和分享。