分论坛 > 天津 > 新闻动态
CCF YOCSEF天津成功举办“IT智能运维该何去何从?”深度技术论坛
2023-03-27 阅读量:195 小字


近期,ChatGPT访问失败、阿里云香港地区宕机、全美航班被迫停飞等事件引起了人们对大型IT系统运维技术的广泛关注。人类日常生产生活日益依赖大规模IT系统,而这些系统通常软硬件构成复杂、规模庞大、可靠需求高,迫切需要发展新型运维技术。智能运维致力于借助人工智能等技术,探索分析运维内在规律,推动日常任务处理和运维流程的智能化,从而使得运维人员更高效地构建、运行和维护系统。

在这一背景下,CCF YOCSEF天津于2023年3月25日在天津南开大学泰达校区举办主题为“IT智能运维该何去何从?”的深度技术论坛。本次论坛邀请了国内智能运维领域的中青年学者和企业技术专家,共同讨论IT智能运维所处的水平、技术发展趋势和落地应用场景,并在此基础上进一步探讨智能运维技术发展的关键技术路径和场景适配方案,以期为IT智能运维未来的发展指明方向,本次论坛参会人数达到百余人。

论坛上午议程由引导发言与思辨讨论两个环节构成。论坛首先由五位引导发言嘉宾分别从数据驱动的智能化运维、云计算系统智能运维、软件智能运维、故障根因定位算法、故障注入检测等不同方面对IT智能运维的研究发表观点。五位引导发言嘉宾分别是:复旦大学计算机科学技术学院副院长彭鑫、北京大学软件与微电子学院教授李影、西安电子科技大学软件工程学科负责人李青山、清华大学计算机系长聘副教授裴丹、中山大学计算机学院“百人计划”副教授陈鹏飞。

彭鑫的引导发言主题为“数据驱动的复杂系统智能化运维研究与展望”。彭鑫首先提出大规模云原生软件系统具有高度的复杂性和动态性,普遍面临着技术风险高、故障定位难、缺少全局业务和技术视图、架构退化等方面的问题。彭鑫指出包含日志、度量、链路轨迹等在内的可观测性数据不仅可以用于运行时问题发现和根因定位,也为我们洞悉云原生软件系统业务和技术运转状况及其长期发展趋势预测提供了手段。同时,彭鑫从故障和性能问题、架构理解与设计质量、业务流程和特性三个方面分别介绍了基于可观测性数据的智能化运维研究与实践。最后还针对数据库等基础软件系统以及智能机器人系统等复杂系统的智能化运维问题以及相关研究思路进行了分析和展望。

1

李影的引导发言主题为“云计算系统智能运维:感知、诊断、交互”。李影指出作为新一代信息基础设施,云计算系统管理着成千上万的服务器和百万计的服务实例,为数以亿计的用户提供7天24小时不间断服务的现状。她同时强调提高性能和可靠性并降低成本的系统管理技术是云计算关键软件的核心能力。然后,李影分别从人工智能提高大规模云计算系统可靠性与可用性角度出发,围绕智能运维的感知、认知与交互三大核心问题,提出了人机混合增强智能运维模型和方法,揭示了系统运行状态感知与异常认知的正反馈原理。最后,李影介绍了在运行状态即时感知与理解、运行时异常检测与故障诊断、人机知识与智能融合机理等方面取得的创新性成果及其在产业界的应用。

1

李青山的引导发言主题为“软件智能运维研究及典型应用”。李青山从软件运维发展历程、什么是智能化运维、智能化运维政策导向、智能化运维活跃领域分布情况及智能运维发展现状为背景出发,引出关键领域开展智能化运维的难点和挑战及针对关键领域软件开展智能运维的价值。随后详细介绍了其所在团队的方向进展,研究以国家需求和学术前沿共同牵引。其中在理论研究上,从研究概况、软件建模、演化规则定义、演化规则执行、以医疗领域为应用案例多个方面,在方法研究上,从数据获取、故障检测与根因定位、资源优化决策、以文化产业为应用案例分别介绍规则驱动的自动运维;从研究框架、知识获取、知识建模、 知识融合多个方面详细介绍知识驱动的自主运维。最后,以星载软件为领域实践,介绍了智能运维新挑战。最后探讨了未来对动态复杂环境软件开发与运维智能化技术的研究方向。

1

裴丹的引导发言主题为“云原生环境下的故障根因定位算法探索”。裴丹指出,云原生技术在助力企业提高效率和降低成本的同时,也增大了故障发生的机率。故障不仅降低了云原生系统的用户体验,也给企业带来了经济损失。针对这些问题,裴丹强调故障诊断对及时故障止损十分重要。裴丹从故障检测角度,分享了团队面向云原生环境的几个故障根因定位工作。

1

陈鹏飞的引导发言主题为“面向云原生系统的主动性故障注入与检测”。陈鹏飞指出,云原生系统因为其快速开发和迭代以及灵活的可扩展性得到广泛的关注和研究。 但是,其在运行过程中由于受到内部或者外部的因素影响会出现性能下降、宕机等故障。及时发现和恢复故障一直以来是智能运维要解决的主要问题,学术界也提出了大量的解决方案。但是由于受到故障数据稀疏,不断上升的系统高复杂度以及动态变化的运行环境等因素的影响,传统的故障检测方法难以获得令人满意的效果。针对该问题,陈鹏飞从面向云原生系统的主动性的故障注入的角度,讨论了多层次多粒度的故障实现方法,基于这些故障讨论基于主动学习的自适应、可迁移的故障检测方法,并介绍了相关方法在工业界的落地效果。

1

五位引导嘉宾发言结束后论坛进入激烈的思辨讨论环节,与会嘉宾围绕议题一“面向不同行业的智能运维能力成熟度”进行深入思辨,具体围绕智能运维成熟度的模型如何构建以及提升智能运维成熟度的关键因素展开讨论。

观点一:不同的行业中业务需求不同,则对智能运维成熟度的标准定义不同。需要先构建底层标准,具体场景中需各自构建具体的智能运维成熟度的标准。

观点二:提升智能运维成熟度,需要考虑以下的问题:(1)需要细化到不同行业的不同场景,综合考虑全量场景和极端场景,抽象关键性问题,产出相关方法论,构建通用模块。(2)解决信创问题和数据安全问题。(3)研究智能运维与业务及用户体验间的关联。

分组1总结:智能运维存在复杂系统架构治理能力差、长调用链的架构退化、数据量不足、数据质量与无偏数据集构建难等技术难题;在成本限制下,如何取得效用、稳定性与成本的平衡;需要解决可解释、安全性、鲁棒性等非功能属性;要解决配置生成与配置验证、运维交互机制的设计与学习等核心技术;同时需要数据驱动与知识驱动的有机融合。智能运维领域经过领域特定、领域自适应的发展,最后达到领域通的目标。在这过程中,关键领域知识引入是要智能运维发展的关键技术。具体地,需要构建以业务为驱动的智能运维基本框架,在其中实现基础通识问题的解决以及领域知识的数字化,并应制定相应标准。最后,应该引入多学科的交叉融合来进一步促进智能运维技术的发展。

分组2总结:智能运维的应用场景的分为研发(提高架构的韧性设计)、交付(变更,软件和配置)、日常(根因识别,快速恢复单元)及应急(人机交互)四个阶段。要从算法、场景解决智能运维可应用性、成本、容量规划、效率及场景选择四个核心问题。智能运维中代码的安全、根因定位等核心技术离不开大模型技术,而GPT4背后同样需要运维,借鉴大模型表达能力强的优势。因为异常跟企业的应用拓扑相关,需要建立运维数据治理平台:构建基于场景化定义的标准数据集、统一的基础设施,实现不同属性对象抽象、场景抽象、提取共性,并通过开源载体推动标准遵守。未来智能运维的核心是实现高频刚需低成本的目标,并以规则和数据共同驱动,其中依赖数据、算法优化是关键。智能运维的最终目标是自治、治愈,实现以业务目标为导向的智能运维落地和实践。

11

会议最后,CCF YOCSEF 天津主席卢冶对论坛活动进行了总结并给予了充分肯定。同时指出,秉承“承担社会责任”的宗旨,希望本次深度论坛形成的观点和方案能够产生社会价值,同时希望与会嘉宾今后能持续关注并参与CCF YOCSEF 天津的活动。


热门动态
2021-05-12
CCF YOCSEF天津举办“线上教育如何行稳致远”观点论坛2021年5月9...
CCF聚焦