2025年7月19日,CCF YOCSEF南京技术论坛—智能图形技术赋能具身智能数据底座的构建,在南京市润葳酒店顺利举办,80余位来自高校、企业的专家学者,针对利用智能图形技术生成的合成数据在训练具身智能体时面临的挑战、具身智能的各种复杂环境对合成数据视觉真实度的要求,以及智能图形和高效模型如何协同推进具身智能的发展等问题展开深入讨论。论坛由YOCSEF南京委员李元琪(南京大学)、过洁(南京大学)担任执行主席共同主持。
执行主席李元琪、过洁介绍论坛背景
论坛开始,李元琪首先介绍了CCF YOCSEF的文化和使命,强调CCF YOCSEF致力于聚焦地方特色,汇集各方才智,承担社会责任,提升成员能力,YOCSEF南京着力于促进省内高校和产业间的合作与交流。随后,过洁简要介绍了论坛背景。具身智能已经成为当下学术界与工业界共同关注的焦点,并且也得到了国家的高度重视。南京在今年三月揭牌成立机器人产业攻坚推进办公室,并成立具身智能机器人产业生态联盟,旨在发力打造“机器人之城”。具身智能需要优质的训练数据,然而优质训练数据的获取需要耗费高昂的成本。当前计算机图形学技术已经可以获得高沉浸感的渲染画面,可借助高性能渲染与仿真技术构建具身智能训练数据与仿真环境。但是,利用图形技术生成的合成数据在训练具身智能体时仍然面临较大挑战。因此,本次论坛召集深耕图形、具身智能的学术界、工业界专家,共同探讨智能图形技术如何助力具身智能数据底座的构建。
引导发言
论坛邀请了四位引导嘉宾,他们分别从图形技术与具身智能两个方面对当前的研究与应用前沿进行介绍,这些精彩的引导发言为后续的思辨环节奠定了坚实的思辨基础。
张力(复旦大学大数据学院教授)提出,突破具身智能落地的核心在于构建“数据-训练-预测”的闭环系统。他以生成式 AI 为技术基座,系统性介绍三大路径:动态环境精准建模,通过高维重建技术实现物理场景的高精度数字化表征,结合精确网格提取与动态3D场景建模,攻克复杂交互场景(如非刚性物体形变、光线突变)的感知瓶颈,为智能体提供高拟真环境先验;实时渲染驱动的仿真推演:利用生成式视频先验优化自由轨迹下的三维模型生成效率,通过物理规则约束的实时渲染技术,提升虚拟环境中动作规划的时空连续性与物理合理性,显著降低真实场景试错成本;可信世界引擎的闭环构建:依托上述技术,构建融合场景逼真性、交互自由度及计算高效性的仿真平台,最终实现全流程高效迭代闭环。
唐睿(群核科技首席科学家)认为数据、算力、模型参数规模的提升方能驱动智能的涌现,而在具身智能任务中,在数据方面存在显著瓶颈。对此,他提出“合成数据-真实数据”联合训练——通过图形学技术构建高保真虚拟环境生成合成数据,与真实场景采集数据协同优化具身智能体训练效果。唐睿认为,图形学构建的AI系统属于“屏幕中的AI”,而具身智能则属于“真实世界的AI”,已超越屏幕范畴。因此,图形学传统绘制管线中常用的网格表示未必适用于具身智能训练的模型表示形式。在点云、CAD、网格之外,具身智能时代或将催生服务于“超越屏幕、真实世界的AI”的新型图形数据形式。
张举勇(中国科学技术大学数学科学学院教授)强调,具身智能时代下三维数据的表达形式需适配真实世界的复杂场景,其剖析了当前主流三维表达(包括网格表达、隐式表达,以及备受关注的辐射场、3D GS)的优劣势及挑战,指出结构化表示是当前3D内容交互、仿真与应用的基础,并认为三维数据应兼具高保真渲染能力与结构化几何特性。为此,他提出了一种统一结构化几何与高保真辐射场渲染的新表达形式——StructuredField,可同步建模几何、物理属性与外观,基于建模的物理属性预测并渲染物体动态序列,生成符合物理规律的动态形变物体,此新型三维表达凭借其显著优势,可用于合成具身智能训练所需数据。
霍静作引导发言
霍静(南京大学计算机学院准聘副教授)探讨了开放世界机械臂操作的进展与展望,其认为开放世界机械臂算法遵循一种大小脑协同框架,关键在于各模块的衔接、闭环与泛化机制。霍静归纳了三类研究范式:针对长时序任务具身技能链接/组合,首先采用目标检测、SLAM等技术完成环境感知,随后运用路径规划等技术实施决策;针对未见任务的具身策略泛化,采用大小脑协同策略,融合大模型理解用户指令并分解任务,继而调用小模型分别处理各个任务;针对复杂任务的具身世界模型,构建视觉-语言-决策大模型,直接依据感知和指令生成决策,此范式对数据的依赖程度最高。
思辨环节
在思辨环节,在场各位专家学者针对三个思辨议题展开了精彩的思辨和激烈的讨论,分别是:
思辨议题1:利用智能图形技术生成的合成数据训练具身智能体存在哪些挑战?
特邀嘉宾张禹(南京埃斯顿自动化股份有限公司首席技术官)指出,具身智能技术在实际应用中涉及多源感知,尤其在工业制造等场景下,除视觉信号外,还包含触觉等多种感知信号。因此,在构建具身智能数据底座时,尽管图形渲染技术可合成视觉逼真度较高的数据,但在实际复杂应用中,力、电等物理属性的重要性不亚于视觉效果,这就给使用合成数据训练具身智能体带来了显著挑战。
在特邀嘉宾的启发下,参会嘉宾积极发言,观点提炼如下:
1. 具身智能所需的合成数据不仅依赖渲染技术,还需融合几何建模、材质建模、物理仿真等技术,建模精度与仿真真实度直接影响合成数据的质量。
2. 为适应复杂环境,具身智能体训练需涵盖视觉仿真及力、电等多种物理属性的高精度仿真。例如,工业机器人执行精细生产操作时,力信号的重要性常超越视觉信号。
3. 合成数据与真实数据的混合使用可提升模型性能,但需考量二者配比,不同配比直接影响模型性能。此外,训练过程中应结合具体应用场景,部分场景可采用适量的合成数据,而有些场景采用合成数据可能产生负面影响。
4. 为更逼真地模拟具身智能交互环境,合成数据不仅需包含“正确”样本,还应包含“错误”样本。因真实世界存在“错误”情况,此类数据可增强具身智能体的鲁棒性。
5. 合成数据可弥补真实采集数据的部分缺陷。例如,部分真实数据集呈离散性,由此训练的机器人仅在两点间沿直线行进。复杂环境中往往会形成连续多段的直线路径,合成此类连续数据可对真实采集数据形成补充。
6. 对真实数据进行增强所获的扩增数据,其真实性优于完全虚拟合成的数据。
7. 合成数据制作本质是将人类对现实环境的认知迁移至数字世界。然而,当前对现实世界的理解仍存不足。例如,自动驾驶领域对环境判断仍过度依赖车道线,但其他环境信息对决策影响显著。唯有深化对现实世界的认知和理解,才能生成更高质量的合成数据,并服务于具身智能体的训练。
观点小结:合成数据需突破单一视觉仿真的局限,融合力、电等物理属性的高精度建模;需平衡合成与真实数据的配比,并引入“错误样本”增强鲁棒性。合成数据的本质是人类认知向数字世界的迁移,但当前对现实世界的理解不足制约了数据质量。
思辨精彩瞬间1
思辨议题2:智能图形技术生成的合成数据需要达到什么样的视觉真实度才能满足各个领域具身智能训练的需求?
特邀嘉宾潘烨(上海交通大学副教授)指出,视觉真实度涵盖建模、仿真等图形学子领域技术,非仅限于渲染,并认为当前sim2real领域仍存在显著的数据迁移挑战。她以数字人构建为例,数字人生成需支持重定向—儿童动作不可等比例放大至成人,另外数字人的构建还需要考虑微表情等各种细微的形态特征,这些数据在真实场景下本身就难以获取,这也给合成数据的视觉真实度提出了更高的要求。
在特邀嘉宾的启发下,参会嘉宾积极发言,观点提炼如下:
1. 具身智能需更逼真的原始数据,例如材质属性等。当前材质属性建模依赖设计师肉眼观察与手动调整,此类数据属人工感知与猜测,非“优质原始数据”。
2. 需进一步拓展“视觉真实度”内涵。具身智能体与环境交互时,除视觉信号外,还需其他类型信号的配合。例如,野外复杂环境部署机器人时,足部与土壤的力学交互信号对机器人行进至关重要。
3. 数据非越真实越好,需适应错误、失真等情况。合成数据适度包含“错误”,亦属视觉真实度需求范畴。
4. 数据非仅模仿已发生的真实世界,也需模拟罕见情景。例如水文预测或洪峰预测中,面对气象记录未见的极端天气,现有模型易失效。因此在构建具身智能仿真数据时,需通过仿真生成一些极端罕见的数据。
5. 合成训练数据时,应充分模拟各类视觉传感器的信号失真。例如计算机视觉任务中,A厂商摄像头训练的模型在B厂商摄像头上性能退化,主要原因在于传感器失真差异。
6. 合成数据可以注入领域知识,由此可提升具身智能在特定场景下训练的模型效用。
观点小结:视觉真实度需扩展为多模态交互真实度,合成数据要避免盲目追求绝对逼真,这一方面需要包容“适度失真”以模拟真实世界复杂性,另一方面也要主动生成极端罕见场景数据弥补现实缺失。
思辨精彩瞬间2
思辨议题3:智能图形和高效模型如何协同推进具身智能技术发展?
谢海春作思辨环节发言
特邀嘉宾谢海春(南京钟山虚拟现实技术研究院董事长)指出,当前具身智能产业在工业应用和多生活场景应用两大领域,已经涌现出大量的现实需求,这对模型、数据、图形学技术都是潜在的重大机遇。目前的图形学研究已经从场景合成引擎演进至全物理仿真引擎,突破了跨模态对齐、稀疏重建等难题,完全可以将真实世界迁移至虚拟空间训练具身智能。然而,产业界对这些技术和突破,还不太熟悉;而学术界对相关成果的工程应用研究,也缺乏产业界的项目引领与投资。因此,希望双方的交流合作能够不断深化,图形学和人工智能方面的青年人才,能够更快地与成熟的机器人产业结合,以促进具身智能在具体应用场景的落地。
在特邀嘉宾的启发下,参会嘉宾积极发表见解,核心观点如下:
1. 需规避数据-模型循环的“永动机”陷阱,即用合成数据训练模型,用模型生成合成数据,致使误差在数据与模型间持续累积。
2. 利用合成数据训练时,应关注其泛化性,合成数据分布需尽量匹配真实数据分布,同时需要考虑真实世界的特殊场景。
3. 图形学研究如同“扮演上帝”,依据物理规则生成逼真画面。然而具身智能领域需更好地模拟真实世界复杂场景,需要更“智慧”的上帝—合成数据不宜过于“干净”,应包含真实世界的“杂乱”。
4. 应尝试任务驱动的范式生成数据。模型依赖数据驱动,而训练数据应采用任务驱动的方式生成,从而形成“任务-数据-模型”的完整链路。
5. 除建模精度外,需重视合成数据的可编辑性。可编辑性意味着可扩展性,并可针对模型特定表现进行优化。
6. 学术界与工业界均关注大数据支撑大任务,但亦应探索小数据解决小任务,如医疗机器人领域价值巨大而数据积累成本高昂,“小数据+小任务”的“数据+算法”协同模式值得深入研究。
思辨精彩瞬间3
观点小结:数据与模型的协同要打破循环陷阱,以任务驱动闭环。具身智能的发展需规避“数据-模型永动机”带来的误差累积,强调合成数据分布与真实场景的泛化匹配,采用任务驱动型数据生成范式(任务→数据→模型),突出数据可编辑性对合成场景的价值,重视“小数据解决高价值小任务“的技术路线。
会场精彩瞬间
论坛总结
本次论坛聚焦智能图形技术构建具身智能数据底座的核心命题,与会专家一致认为:
第一,在具身智能领域,合成数据价值与挑战并存:合成数据是突破真实数据成本瓶颈的关键路径,但需攻克多模态物理仿真、跨模态迁移、认知局限性等挑战;
第二,对合成数据的视觉真实度定义需要革新:视觉真实度应升级为多信号协同的真实交互体验,包容错误与罕见场景,提升具身智能的环境适应性;
第三,构建数据与模型的协同发展逻辑:智能图形合成数据与高效具身智能模型需形成任务驱动的闭环,避免数据-模型循环陷阱,通过可编辑合成数据支撑场景化落地。
撰稿:李元琪,过洁
审核:朱光辉,孙倩
编辑:孟凡