2023年8月5日,中国计算机学会青年计算机科技论坛深圳分论坛(简称,CCF YOCSEF深圳)深度技术论坛“E级超算系统大规模应用:关键技术与实现路经”,在深圳西丽湖人才服务中心顺利举行。
出席会议的人员来自中国科学院计算技术研究所、中国科学院计算机网络信息中心、国防科技大学、南方科技大学、西安电子科技大学、香港科技大学(广州)、香港浸会大学、鹏城实验室、国家超级计算深圳中心、中国信息通信研究院技术与标准研究所互联网中心、深圳信息职业技术学院、中科曙光、华为、腾讯等,共计50余人参与线下研讨,2000余人线上观看。本次论坛由YOCSEF深圳副主席/国家超级计算深圳中心高性能部部长黄典、YOCSEF深圳AC委员/南方科技大学计算机科学与工程系助理教授李卓钊共同担任执行主席,YOCSEF深圳AC委员/横乐医疗科技研发总监郭利担任线上主席。
CCF YOCSEF深圳主席/腾讯科技张伟鹏,介绍了CCF YOCSEF的文化。黄典介绍了本次深度技术论坛的背景,并做了引导发言。黄典指出,对于超大规模超级计算机,高可靠性、高可扩展性及高易用性,直接关系到超算的服务能力,需要从硬件到软件、从系统到应用等各个层面的艰苦细致的工作,唯有把这些工作做好,我们才能实现技术跨越,才能真正把顶级超算打造为国之重器。围绕E级超算系统大规模应用开展深度研讨,对促进我国超算事业及数字经济发展,都具有十分重要的意义。
论坛共分为专家报告和技术思辨(闭门讨论) 2个环节,分别于上午和下午举行。
专家报告环节,朱虎明以“HPC+AI+X:以遥感图像目标检测大规模并行训练算法为例”为题,介绍了目标检测大规模并行训练算法以及算法在上千个异构计算节点上的实验过程。他指出,传统的单节点GPU计算平台往往难以满足这些模型的训练时效性要求,使用超算来训练基于视觉Transformer模型的目标检测算法已经成为必要的技术手段,但是其还面临高性能计算软件栈支持、算法收敛性和计算效率等瓶颈问题。
王丙强以“漫谈HPC和AI的融合发展和挑战”为题,他表示,计算能力持续增长的同时,先进大规模计算系统的功耗和由此产生的碳排放,逐渐变得不可接受。系统微架构先后以标量、向量和矩阵作为主要加速形态,在过去二十年里大大提高了能效比。为了进一步提高能效比,需要平衡系统架构设计、提高可用算力,在设计上克服访存和IO性能的相对滞后带来的问题。只有进一步优化算法和软件,才能够发挥硬件的更大效益,进一步提高能效比。而如何充分利用混合精度计算能力是一个新的挑战。
侯志超以“面向大规模混合云的高可靠路由系统”为题,分享了腾讯云在多年运营过程中对混合云接入网络的可靠性和扩展性方面进行的丰富探索和实践。他表示,腾讯云自研的分布式路由系统以云原生的思想,将路由功能微服务化,提高云上用户的隔离性和安全性,提升网络系统的可扩展性和可运营性。同时创新的实现了轻量化的NSR(Non-Stopping Routing)方案,降低了NSR功能的复杂度,并且从多维度设计组件间探测和容灾方案,从而构建适应大规模混合云接入的高可靠路由系统。
贾伟乐以“HPC+AI驱动的微观尺度模拟初探”为题,分享了他们在团队相关领域的一些工作,包括HPC+AI在第一性原理精度分子动力学大规模训练、推理等工作中的应用。他表示,相比传统的高性能计算,智能科学计算在计算能效上有数量级的提升,同时也对传统的计算机体系架构提出了新的挑战。
孟金涛以“ARM架构上突破不规则矩阵乘法性能的极限”为题,分享了他们团队近期研究进展与成果。他们提出了一个基于 ARM 架构嵌入式设备和服务器级 CPU 上实现高效计算的矩阵乘法,能够广泛使用在 ARM 架构上,突破现有不规则矩阵乘法计算性能极限的计算库 autoGEMM。autoGEMM通过代码生成和手工优化核心汇编代码片段,为各种形状和不同的硬件配置生成高性能矩阵计算内核,最大限度地提高计算库在各种 ARM 硬件设备上的性能。
孟金涛
技术思辨(闭门讨论)环节分为两个子论坛,分论坛一主题为“如何设计高可靠、高可扩展、高易用的超大规模超算系统”,参与研讨的专家包括国防科技大学教授刘光明、国家超算深圳中心主任冯圣中、中科院深圳先进院高性能中心主任魏彦杰、信通院技术与标准研究所互联网中心副主任穆琙博、中科院深圳先进院副研究员孟金涛、香港浸会大学助理教授周池、腾讯云专家工程师侯志超、鹏城实验室高级工程师王丙强和助理研究员章弋嘉。
分论坛二主题为:在面对多样化场景的大规模应用对超算系统的要求是什么,参与研讨的专家包括西安电子科技大学人工智能学院副教授朱虎明、中科院网络中心高性能计算部主任金钟、中科院计算所副研究员贾伟乐、曙光智算应用技术部副经理崔华华、国家超算深圳中心副研究员戴中洋、香港科技大学(广州)助理教授文泽忆、深圳信息职业技术学院信息与通信学院讲师林进挚、华为先进计算与存储实验室徐泽瀛和洪依君。
各位专家在现场积极发言,进行了激烈讨论,为E级超算系统大规模应用发展提供了宝贵经验。
冯圣中做了论坛总结发言。他指出,超算的应用生态发展水平是超算算力转化为生产力的决定要素,超算的应用生态主要构建于x86或x86+GPU异构系统,这极大阻碍了国产超算算力的有效发挥和利用,探讨E级超算大规模应用的关键技术和实现路径对于繁荣国产超算应用生态,将国产超算打造为真正的国之重器,发挥超算效益,支撑社会经济高质量发展,意义重大。
本论坛获得来自国内各主要超算技术路线专家的支持与指导。会后,将进一步梳理专家意见形成总结报告,为国产超算系统生态发展建言献策。