分论坛 > 长沙 > 新闻动态
CCF YOCSEF长沙成功举办 ““云智”时代下新型数据中心建设与应用之思” 技术论坛
2023-01-11 阅读量:404 小字


202317日上午,CCF YOCSEF长沙“云智”时代下新型数据中心建设与应用之思技术论坛在位于中建智慧谷的证通云计算研究院以线上线下混合方式成功举办。此次论坛的背景,是我国在“十四五”规划和2035远景目标纲要中指出要将云计算等数字经济作为重点产业发展。为响应国家号召,数字湖南建设领导小组也印发了《湖南省新型数字基础设施建设“十四五”规划》,提出推进国家超算长沙中心等算力设施智能化升级,推动长株潭城市群创建国家人工智能创新应用先导区等目标。明确了以先进算力、数据中心总存储能力、数据中心机架规模、数据中心平均利用率、数据中心电能利用效率(PUE)、省内网间访问时延、丢包率等为代表的指标要求,旨在打造特色鲜明、泛在高效、规模适度的算力支撑体系,努力将湖南建设成为全国先进绿色算力枢纽和国际领先的算法创新中心。

面对算力增长的建设和应用需求,人工智能技术可否助力云计算环境的管理与运维,为新型数据中心建设提质增效降耗?同时,新型数据中心又将如何更高效地支撑人工智能技术?“云智”时代下如何实现AI技术与新型数据中心的互增益?为探讨上述问题,本次技术论坛邀请了清华大学徐恪教授、湖南大学唐卓教授(国家超级计算长沙中心总工)、国防科技大学刘新旺教授、国防科技大学韩彪副研究员、证通电子云计算研究院副院长纪军刚先生和长沙理工大学的胡晋彬讲师,作为来自学术界和产业界的专家代表,围绕以下议题展开深入思辨:(1AI for Cloud:人工智能技术适合用来解决数据中心建设管理中的什么问题?落地瓶颈在哪?(2Cloud for AI: 云数据中心支持人工智能应用挑战在哪?(3AI + Cloud X:计算、存储、网络、通信,谁会成为人工智能与数据中心结合的下一个爆点?

论坛主题

本次活动由YOCSEF长沙候任AC委员、国防科技大学副教授欧阳雪,CCF互联网专委会及区块链专委会执行委员、国防科技大学副教授周寰共同担任执行主席。中南大学唐枫枭担任微论坛主席。除特邀嘉宾外,YOCSEF长沙主席邝祝芳、副主席陈果、AC委员张士庚、AC委员杨征、YOCSEF广州AC委员刘同来、YOCSEF上海AC委员黄泽良等20余名嘉宾到场参与讨论。此外,本次活动采用线上线下联动模式,YOCSEF长沙副主席姜文君、学术秘书廖璟、AC委员付绍静、陈荣茂、张世文、国防科技大学赵宝康,以及来自全国各地的专家和学者总计40余人参加了本次论坛。

与会嘉宾合影

本次论坛分为引导发言和思辨讨论两个阶段。第一个阶段是引导发言。

第一位引导发言嘉宾是湖南大学唐卓教授(国家超级计算长沙中心总工),他分享了题为《算力中心智能运行与运维管理系统思考》的精彩报告。唐教授介绍了长沙超算基础设施的基本情况,讨论了各平台间资源未能有效整合的挑战,还特别介绍了与本次论坛主题紧密相关的智能运维(主要关注设备)平台及智能运营(重点关注客户需求)系统的建设目标及思考,包括如何建立一套安全的、科学的、信息化的统一运行管理系统,合理利用超算中心固有资源,提升超算中心整体运营质量等。

唐卓教授做引导发言《算力中心智能运行与运维管理系统思考》

第二位引导发言嘉宾是国防科技大学刘兴旺教授,他分享了题为《新型鲁棒多核聚类算法及其在云智时代的机遇与挑战》的精彩报告。刘教授介绍了其课题组最近提出的SimpleMKKM融合聚类框架和采用核矩阵局部对齐思想提出的Localized SimpleMKKM拓展算法。以上模型在不同应用中展示了优越的聚类性能,且不含任何超参数。最后从人工智能角度,刘教授谈到了以聚类为代表的AI算法在云智时代的机遇和挑战。

刘兴旺教授做引导发言《新型鲁棒多核聚类算法及其在云智时代的机遇与挑战》

第三位引导发言嘉宾是清华大学徐恪教授,他分享了题为《智能网络体系结构与关键技术》的精彩报告。徐教授将论坛议题从数据中心网络扩展到兼容现有互联网架构的理想智能网络,提出了发展理想智能网络的理念。以数据、模型、算力三方面的协作为关键手段,以人类智能决策为理想范本,以知识面为重要支撑,徐教授报告了为实现复杂异构网络智能演进,使之具备自学习、自推理、自归因、自演进的全维智能优势所做的相关工作。

徐恪教授做引导发言《算力中心智能运行与运维管理系统思考》

至此,引导发言环节结束。随后,论坛进入第二阶段——激烈的思辨讨论阶段。在该阶段,长沙理工大学讲师胡晋彬、国防科技大学副研究员韩彪、证通电子云计算研究院副院长纪军刚作为思辨嘉宾,分别带领一个思辨点的讨论。各位参会嘉宾及专家针对3个思辨议题各抒己见,进行了深入而热烈的思辨讨论。各思辨议题的观点梳理如下。

思辨1观点总结:

国内外大型数据中心中已有部分人工智能应用落地的案例,比如DeepMind公司为谷歌数据中心开发的基于深度学习的PUE预测算法,比起人工管理可达到节电40%的性能。但是在小型数据中心中类似成功的实践还比较稀少,可以说在相关领域,学术界和工业界还存在距离。总的来说,AI目前在运维管理方面应用较为成熟,而应用在资源调度方面还处于学术研究阶段,应用在节能降耗方面对于小型数据中心的需求并不迫切。此外,还有嘉宾提到数据中心的安全维护其实也可以应用人工智能技术来辅助实现。

对于落地瓶颈同样需要区分应用场景讨论,有些问题更适合人工解决,比如资源调度,使用智能算法的增益需要合理衡量,不一定有必要。有些问题,比如安全,由于故障数据比较少,共享又比较困难,这时候模型训练性能就会成为主要的挑战。

思辨2观点总结:

现在的智能算法发展趋势,是模型越来越大,对大模型的训练有其特殊性,需要分布式优化,这和传统超算模式不同。尤其是现在云数据中心中服务器架构异构多源,网络通讯代价等问题,都给AI算法的适配及部署提出了很大的挑战。此外还有一个重要的挑战是安全性的保障,长沙电信数据中心因为火灾连基本的通讯业务都发生了临时性能降级,如果不能确保安全、隐私等基础性问题得到首要解决,智能化更无从谈起。

思辨3观点总结:

从数据中心发展的脉络上来说,经历了软件化、网络化、云化和智能化,现在处于云化到智能化的拐点。而从云化到智能化的关键点,无论是从AI应用到数据中心,还是数据中心使能AI的训练部署,与会专家普遍认为数据中心内的网络和AI结合会是未来的重点方向。因为数据中心内的网络运维和调度较为复杂,AI发挥空间较大。而为了支撑大型神经网络的训练,数据中心最大的瓶颈问题也在于网络通信,因为涉及到大量参数的传递。目前,基于P4的可编程交换机相关工作也引领了这个领域的很多工作。

参会人员合影

最后,执行主席欧阳雪、周寰、及YOCSEF长沙主席邝祝芳向线上线下所有嘉宾和参会者表示感谢并在会场门口进行了合影,欢迎大家继续参与YOCSEF长沙后续其他活动,论坛圆满结束。

CCF聚焦