2023 CCF青年精英大会(YEF2023)于2023年5月18-20日在温州市鹿城区召开。5月20日下午,专题论坛《算力网络:激发算网服务新动能》在香格里拉永嘉厅顺利举行。北京邮电大学谢人超教授、北京并行科技陈健董事长、天津大学王晓飞教授、中科院计算所朱树永老师、广东联通骆益民老师、中国移动研究院刘少伟老师、网络通信与安全紫金山实验室胡玉姣老师以及来自多所高校及企事业单位共50多人参加了此次论坛。本次论坛由YOCSEF深圳AC 委员(2023-2024)/国家超级计算深圳中心郭利、YOCSEF西安AC主席(2022-2023)主席/北京超算牛瑞共同担任执行主席。
论坛开始,郭利围绕算力网络建设作开场致辞,介绍了论坛背景和论坛议程。算力网络的本质是把算力变成一种基础设施化服务,提升算力资源覆盖的广度和深度,降低算力使用成本,为用户提供低门槛的、易用的、广泛的计算能力,以应对数据处理需求的激增和人工智能技术的飞速发展。郭利对与会专家表示热烈欢迎,指出本次论坛围绕算力网络发展进行研讨,对于促进学术交流,强化新基建顶层设计,推动我国算力网络建设具有重要意义,并预祝论坛取得圆满成功。
随后,论坛进入专家报告环节。本次论坛邀请了谢人超教授、陈健董事长、王晓飞教授、朱树永老师、骆益民老师和刘少伟老师作为报告嘉宾。
谢人超教授以“算力网络的发展趋势思考与探索”为题,介绍了算网标识、算网云原生、算网确定性、算网智能化、算网可信性、算网孪生等角度的思考,并介绍了团队前期在算力网络的探索实践情况。
陈健董事长以“东数西算,算力服务从可用、好用到降本” 为题,介绍了近期全国乃至全球高端超算算力面临极度紧缺的情况,而算力网络恰好是解决当前算力问题的最优模式,只要还有可用超算算力,算力网络就可以保证支撑用户完成计算任务。
王晓飞教授以“分布式算力网络演进之路” 为题,介绍了分布式云算力的发展历史与趋势,揭示了云算力网络的演进路线,分析了算力网络的多个核心挑战,并从服务质量、智能调度、价格博弈等角度介绍了相关科研成果。
朱树永老师以“‘信息高铁’算力网“为题,介绍了IT 3.0 人、机、物万物智联时代对于新型信息基础设施的新需求。中国科学院计算技术研究所提出了“信息高铁”建设计划,旨在打造“可测、可调、可控、可信”的新型信息基础设施,为应用提供高通量、高品质的信息服务。
骆益民老师以“面向算力时代的全光网络演进思考” 为题,介绍了更大带宽、更低时延、更灵活调用和更智能管控的全光运力网络,旨在为用户提供更加高效、更加可靠的算网服务。未来将着力打造1+N+X的算网产品体系,为千行百业的数字化转型保驾护航,助力大湾区乘“算”而起。
刘少伟老师以“算网基础科学研究试验平台构建探讨”为题,介绍了算力网络试验网(CFITI),与其他试验平台携手,为用户提供多类型(通算、智算、超算等)算力资源,为多领域不特定大量用户提供了试验平台和测试手段。
在专家报告之后,论坛进入Panel环节,由郭利主持。与会专家围绕“算力网络,算重要还是网重要?算力网络如何使得用户像用电一样,使用算力?算力网络如何解决大模型预训练资源不足的问题?”等议题进行深度思辨。论坛邀请了网络通信与安全紫金山实验室胡玉姣担任思辨特邀嘉宾。
谢人超教授观点凝练:
1. 为了实现用户像用电一样使用算力,首先需要在用户和算力之间提供调度平台,通过策略算法的设计与优化,以实现需求和资源的双边映射。
2. 针对目前资源和需求不匹配的现状,可以考虑开放闲置资源,通过可信计算的介入和控制,构建多方信任体系。
3. 算力网络作为基础设施,应首先投入力量进行建设,提升此基础能力,同时边试边行,在使用的过程中逐渐筛选合适的应用。
陈健董事长观点凝练:
1. 用户使用算力是为了执行需求任务,换言之,使用算力是方法,完成任务是目的。算力网络的建设需要从任务出发,充分考虑需求,旨在做好应用。
2. 目前,各个算力节点已经实现互联互通,但依然面临海量资源闲置的问题。这意味着需求和算力必须适配,提升性价比,增加用户黏性。
3. 随着新型技术发展和实际需求激增,我们期待未来各种应用都适用于算力网络。
王晓飞教授观点凝练:
1. 经充分调研,目前国内的数据中心资源使用率普遍不高,但是各方用户又在寻求资源,这种双边不匹配现状不仅是简单的技术问题,更是市场化问题。
2. 市场需要依靠灵活调度的机制注入活力,以进一步提升双边适配度,平衡资源分布,提高服务质量。
3. 如果算力网络是一种基础设施,则不需期待杀手级应用,可以类比4G和5G技术的出现和发展;如果算力网络是一种服务,则需重点考虑面向用户的灵活交互。
朱树永老师观点凝练:
1. 算力调度区别于电力调度,不同应用要求不同算力,这个需要依靠算网大脑实现资源的综合调度。
2. 横向综合测量调度,实现智能适配;纵向分层解耦,各层定义明确接口,实现层级化技术架构,以提供更加方便的算网服务。
3. 由于统一纳管仍存在许多困难,未来,算力网络可能不止一个,会有很多。在这个过程中,需要各行业专家共同努力,基于真正的应用来验证算力网络的先进性。
骆益民老师观点凝练:
1. 算网大脑对于应用和算力的适配起着至关重要的作用,“平台+应用+门户”的三层级架构是合适的顶层设计方案。
2. 算力网络调度的是资源,是满足任务需求的资源,具体包括网络资源、算力资源、存储资源等类型。
3. 除了当下热点的大模型预训练任务外,其实并不缺乏需要大算力的实际业务,比如天气数值预报,多尺度地球动力学模型。目前应该更多关注产品设备国产化,解决卡脖子问题。
刘少伟老师观点凝练:
1. 算力是否需要通过网络远距传输取决于应用的具体需求。即,算力资源的提供应该从有解决应用需求、满足用户期望值的角度出发。
2. 技术的飞速发展呈现螺旋式,分布式大模型训练对网络要求非常高,还要许多突破需要逐个攻克。
3. 算力网络作为一种新型基础设施,从运营商角度出发,需要围绕生态圈的构建、更新与迭代持续发力,旨在为客户提供更好使用的服务。
胡玉姣老师观点凝练:
1. 算力网络的算和网都很重要,除了设施层面的建设工作外,同时也应该关注算力网络高效运行机制层面的建设工作。
2. 算力网络本质上是实现相关任务数据的双向传输,这一过程在应用中面临许多技术难点,需不断更新迭代,促进技术发展与变革。
3. 东数西算作为一种宏观战略,大家应以此为大方向,从小型算力网络实验点着手,逐步推广,扩大应用范围,发挥算网价值。
此次论坛历时四个小时,郭利和牛瑞对此次论坛进行了总结。此次论坛围绕算力网络的建设现状、技术趋势、未来路径等问题进行了深入思辨。最后,论坛在一片热烈的讨论氛围中圆满结束。