2024年11月16日,CCF YOCSEF合肥顺利举办了题为智能图像视频编码路在何方的深度技术论坛。本次论坛就智能图像视频编码技术、标准和产业化的未来之路进行深入讨论,以期推动该领域的进一步发展。论坛汇聚了40多位从事图像视频编码与处理方向的专家、学者等参与讨论。
开场环节
本次论坛执行主席为YOCSEF合肥副主席、中国科学技术大学李礼,以及YOCSEF合肥AC委员、安徽医科大学何云飞。李礼首先介绍了论坛主题,并对到场嘉宾表示热烈欢迎。随后,李礼介绍了YOCSEF文化,包括其由来、发展历程、组织制度,特别强调了“承担社会责任,提升成员能力”的宗旨,以及“人人平等,直呼其名”的价值观。最后,李礼还介绍了YOCSEF合肥委员申请途径,并期待大家的加入。
引导发言报告环节
中国科学技术大学,李礼做了题为《图像视频智能编码简介》的报告。他首先回顾了经典视频编码技术和标准在产业化等方面取得的巨大成功。然后从编码能给智能带来什么,以及智能能给编码带来什么两个角度介绍了智能图像视频编码技术与标准,具体包括四个方面的内容:混合编码框架中的模块替代、端到端图像视频编码、面向机器视觉的图像视频编码,以及压缩即智能。最后,李礼强调了本次论坛拟重点讨论的智能编码议题。
华为技术有限公司,赵寅做了题为《JPEG AI标准技术介绍》的报告。他首先介绍了JPEG-AI标准的出发点、标准化进程,以及从技术到标准解决的主要问题。然后给出了JPEG AI标准概览,并重点介绍了跨平台解码、网络轻量化、快速熵编解码、可变码率编码、网络泛化性提升等技术。
一名嘉宾线上做了题为《Neural Network-based Video Coding in JVET》的报告。他首先介绍了JVET在H.266标准化工作结束后所进行的一些探索性工作:ECM以及NNVC;然后介绍了NNVC相对于H.266的压缩性能;接着重点介绍了NNVC的滤波网络(包括高复杂度、低复杂度和极低复杂度配置)基本结构、帧内预测网络基本结构、超分网络基本结构;最后以NNVC和ECM相结合的编码性能汇报结束了线上报告环节。
宁波东方理工大学(暂名),金鑫做了题为《VCM&DCM标准情况概况及核心关键技术分享展望》的报告。他首先介绍了面向机器智能的图像视频编码应用新范式;然后介绍了国际MPEG VCM和国内DCM标准情况;最后从通信的三个层次(语法通信、语义通信、语用通信)介绍了从语义通信到表征解耦等内容。
思辨环节
本次论坛共设置了两个思辨议题,旨在剖析智能编码和经典编码的本质区别,探索智能图像视频编码技术、标准和产业化发展之路。议题一:智能给编码带来了哪些新的特点?编码又能如何促进智能?议题二:智能图像视频编码技术、标准、产业化如何往前发展?两个议题是总分关系,首先所有嘉宾共同讨论了智能与编码的关系等基础问题,然后分组、分会场讨论了智能图像视频编码技术、标准、产业化的未来发展之路,最后做了观点汇总、提炼、陈述。
议题一:智能给编码带来了哪些新的特点?编码又能如何促进智能?
该议题邀请了上海交通大学鲁国、南京大学陈彤作为思辨嘉宾,由他们为议题一做引导发言。在该议题下,嘉宾们针对智能和编码的相互关系进行深入剖析,并在以下方面形成共识。智能给编码带来的新特点:(1)智能给编码带来了新的优化目标:端到端优化、面向机器视觉的优化、主观优化等;(2)智能给编码带来了新的网络架构:隐式编码、多模态协同编码等;(3)智能给编码带来了新的压缩数据:神经网络模型,参数更新梯度等;(4)面向机器视觉的特征编码的意义不仅在于编码性能,而且还可以带来隐私保护等好处。编码给智能带来的新特点:(1)压缩和生成是一对逆过程,可以在智能的框架下实现统一;(2)使用压缩后的数据训练大模型可能大幅减少大模型训练和推理成本;(3)编码通常意义上包括压缩和解压缩两部分,现有的“压缩即智能”主要是指编码的智能,而非解码的智能。
议题二:智能图像视频编码技术、标准、产业化如何往前发展?
2.1 智能图像视频编码技术如何往前发展?
该议题邀请了天津大学潘兆庆担任主持引导思辨,邀请了上海交通大学鲁国、上海交通大学程正雪和山东大学李帅作为思辨嘉宾,由他们为议题2.1做引导发言。最后,子议题2.1由宁波东方理工大学(暂名)金鑫向所有嘉宾做总结汇报发言。在该议题下,嘉宾们针对智能图像视频编码技术的发展趋势开展讨论,并在以下方面形成共识。(1)智能图像视频编码技术并没有达到性能瓶颈,尤其考虑机器视觉等一些新的场景的时候,性能的后续提升一方面可以结合大模型、扩散模型等新兴工具进一步提升;另一方面可以把“智能”和“编码”当成一个整体技术框架持续优化。(2)在提升性能到一定阶段后,智能图像视频编码可以沿着更低的延时、可解释的网络结构、与传感器和ISP等结合、硬件专用算子设计等方向持续演进。
2.2 智能图像视频编码标准如何往前发展?
该议题邀请了北京交通大学白慧慧担任主持引导思辨,邀请了中国科学技术大学刘东、山东大学元辉和南京大学沈秋作为思辨嘉宾,由他们为议题2.2做引导发言。最后,子议题2.2由南京大学陈彤向所有嘉宾做总结汇报发言。在该议题下,嘉宾们针对智能图像视频编码标准的发展趋势开展讨论,并在以下方面形成共识。(1)基于标准互联互通的目标考虑,解码器的大部分仍然需要标准化,但是网络模型参数是否需要标准化需要看场景进一步考虑;(2)编码标准中测试条件的挑选与定义与质量评价标准密切相关,编码标准的制定应该与质量评价标准相辅相成、互相促进;(3)智能编码标准应针对具体的模态或应用场景,例如监控、沉浸式视频、3D视频等有着更大数据量的场景进行设计和优化。
2.3 智能图像视频编码产业化如何往前发展?
该议题邀请了深圳大学王妙辉担任主持引导思辨,邀请了北京大学贾川民、小红书骆继祥作为思辨嘉宾,由他们为议题2.3做引导发言。最后,子议题2.3由腾讯朱文捷向所有嘉宾做总结汇报发言。在该议题下,嘉宾们针对智能图像视频编码标准的发展趋势开展讨论,并在以下方面形成共识。(1)智能图像视频编码目前主要在一些APP中也就是软件层面落地,也在深空探测等一些特殊场景落地;(2)智能图像视频编码的广泛应用面临算力、泛化性、标准化等问题,应该从计算、带宽、存储、体验四个方面进行优化,以满足用户需求;(3)智能图像视频编码不应该仅作为降本增效的工具,应该作为增长点来实现利润增长,例如提供个性化服务等。
论坛最后,执行主席李礼对整个论坛分子观点进行汇总、提炼,并做总结陈述。通过本次论坛的报告及思辨讨论,深入剖析了智能图像视频编码技术、标准和产业化发展过程中存在的问题,指出了智能图像视频编码往前发展的一些潜在方向。尽管智能图像视频编码大规模落地仍面临诸多挑战,但只要大家齐心协力,智能编码的发展一定会越来越好。
本次论坛由中国计算机学会(CCF)主办,YOCSEF合肥学术委员会组织,双深科技支持。