分论坛 > 南京 > 新闻动态
大模型技术演进:世界模型让人工智能从感知走向认知与决策
2025-10-12 阅读量:0 小字


2025年9月20日下午,CCF YOCSEF南京技术论坛—人工智能大模型技术演进:从大语言模型到世界模型,在南京大学仙林校区顺利举办。40余位来自高校和企业界的专家学者,围绕着世界模型的研究现状和未来发展趋势进行了深入的讨论。论坛由YOCSEF南京AC委员王利民(南京大学)YOCSEF南京AC主席朱光辉(南京大学)作为执行主席共同主持。


论坛开始,朱光辉首先介绍了CCF YOCSEF的文化和使命。CCF YOCSEF以“承担社会责任、提升成员能力”为宗旨,目标是成为打造青年计算机精英的训练营。他强调平等是CCF YOCSEF论坛的一个核心精神,鼓励大家针对论坛议题自由地发表自己的观点。随后,王利民介绍了此次技术论坛的背景。目前大语言模型已经在对话、代码、数学、智能助手等方面展现出了卓越性能,成为了许多人工智能应用的能力核心。然而,语言只是人类对物理世界的一个抽象,将大语言模型与真实物理世界结合时会存在模型幻觉、缺乏现实世界常识等问题。以图灵奖得主Yann LeCun为代表的一批学者认为世界模型是通往通用人工智能的潜在路径,未来人工智能的发展,应该从物理世界出发,以更好地模拟物理世界中的现象和交互为目标。近年来,世界模型的定义、构建方式以及应用场景成为了学术界和工业界共同关注的热点问题。然而,这些问题仍然是非常具有挑战性的开放性问题,尚未在学术界达成广泛共识。因此,本次论坛召集从事人工智能大模型相关技术研究的学术界、工业界专家,共同探讨世界模型的研究现状和发展方向。


图 | 朱光辉和王利民共同主持本次论坛

引导发言


本次论坛邀请了四位引导嘉宾,他们的引导发言首先厘清了大语言模型的能力边界;进而思考世界模型的突破关键——数据还是算法;接着聚焦物理AI,看世界模型如何建模物理世界;最后关注视频世界模型的前沿进展与未来探索。四个主题层层递进,为后续的思辨环节奠定了坚实的思辨基础。


图 | 南京理工大学计算机学院副教授 虞剑飞

虞剑飞(南京理工大学计算机学院副教授)指出,大语言模型的出现标志着我们进入了一个新的人工智能时代:上一代人工智能产品通常是面向特定任务的专家模型,而大语言在自然语言理解、生成领域的不同任务上具有广泛的通用性。以大语言模型为核心,利用其提供的自然语言接口来调用各种应用软件、控制机器人的行动,可以完成多种复杂任务甚至实现与现实世界的交互。大语言模型原理的核心是根据前文来预测下一个词元,它的训练过程包括了海量文本数据预训练,指令微调和对齐优化三个阶段。大语言模型具备记忆和检索大量知识的能力,在文本摘要、辅助写作等任务上性能优越。然而,在更高层次的理解应用甚至创造能力上,仍存在明显缺陷。



图 | 南京大学人工智能学院教授 俞扬

俞扬(南京大学人工智能学院教授)从强化学习的视角回顾了世界模型的起源,指出其核心在于对环境的建模,包含状态表征与动态模拟两个关键部分,尤其强调动作作为自由变量对实现反事实推理的重要性。世界模型的目标是让智能体在内部构建一个可交互、可预测的环境模拟器,从而支持规划与决策。然而,与大语言模型依赖大量静态数据不同,世界模型面临更严峻的挑战:它必须在训练数据之外进行泛化,回答“如果采取不同动作会怎样”这类反事实问题。当前路径主要有两条:一是通过更大规模的数据(如游戏轨迹、具身交互数据)驱动模型训练;二是提升算法的泛化能力,使模型更“聪明”地利用有限数据。发言人指出,现有数据不仅稀缺,且多为被动收集,难以覆盖决策空间的多样性,而单纯堆砌数据并不足以解决问题。因此,未来方向应是数据与算法协同演进——既借助大规模数据提供良好起点,又通过算法创新提升模型对环境动态的理解与推理能力。


图 | 南京大学智能科学与技术学院准聘副教授 龙霄潇

龙霄潇(南京大学智能科学与技术学院准聘副教授)指出当前对“世界模型”的理解存在明显分歧:一方认为视频生成模型即构成世界模型,另一方则坚持基于三维重建与物理仿真的传统路径。这种分歧源于对“世界”概念本身的哲学性差异——“世界”并非等同于客观存在的“宇宙”,而是与特定主体(如人类或智能体)紧密关联的感知、交互与意义建构的领域。因此,世界模型不应追求对物理世界的完整复现,而应聚焦于为特定主体构建可用于认知与决策的有用子集。以自动驾驶为例,早期探索多依赖显式三维重建,包括场景几何、材质与光照建模,试图构建高保真仿真环境以支持强化学习。然而,这类方法在真实场景中面临光照估计困难、输入视角稀疏、材质复杂等系统性挑战,导致效果受限且工程复杂。相比之下,人类驾驶并不依赖精确的内部三维地图,而是通过视觉线索(如遮挡、透视、运动视差)提取关键信息并作出决策。受此启发,他们的研究转向隐式的视频生成式世界模型,直接从观测序列中学习未来状态演化。实验表明,此类模型能够有效预测车辆轨迹,在换道、转弯、路口停车等任务中展现出与先进端到端驾驶模型相当的性能,初步验证了其在物理推理与决策支持方面的潜力。未来方向可能在于融合显式物理先验与隐式生成能力,兼顾真实性与实用性,推动世界模型在具身智能等场景中的落地。


图 | 上海人工智能实验室青年科学家 张凯鹏

张凯鹏(上海人工智能实验室青年科学家)指出当前交互式视频生成模型的发展聚焦于构建能够响应用户指令、保持时空一致性和长期记忆的“视频世界模型”,尤其在娱乐与叙事场景中展现出潜力。近年来代表性工作包括基于游戏数据(如《我的世界》)或现实视频训练的可交互系统,支持通过动作指令(如前后移动、转向)或文本控制生成连贯视频序列。主流架构普遍采用扩散模型,并通过自回归或层级化方式逐帧生成,同时引入记忆机制——或依赖显式三维重建,或通过检索历史帧的隐式特征进行条件生成,以维持场景一致性。高质量数据是模型性能的基础。其研究团队构建了多个大规模数据集,如覆盖全球百余国家、标注相机轨迹与场景语义的现实视频数据集,以及从游戏引擎中提取的带完整物理与动作标签的合成数据。近期还扩展至包含更多人类日常活动、室内外多视角及多样化游戏场景的数据,强化了对交互行为和第一人称视角的支持,并配套开发了高效的多端标注工具。在模型层面,已有工作实现了基于单张图像输入、通过相机动作控制生成长达一分钟的连贯视频,支持跨域泛化(如动漫、游戏)和简单事件编辑。其关键技术包括将相机轨迹离散化并编码为文本指令,避免额外模块引入,同时采用基于时间距离加权的历史帧检索机制实现轻量记忆。展望未来,该领域仍面临三大核心挑战:一是长期一致性,当前模型在生成超过一分钟视频时易出现记忆漂移;二是误差累积,连续生成过程中微小偏差会随时间放大;三是实时流式生成能力不足。此外,现有视频扩散模型并非为交互式任务原生设计,存在交互延迟高、注意力机制强行单向化、训练效率低等问题。未来方向可能转向统一的生成与理解框架,并优化长序列训练策略,减少冗余计算,提升对动态世界状态的高效建模能力。

思辨环节

在思辨环节,在场各位专家学者针对三个思辨议题展开了精彩的思辨和热烈的讨论,分别是:

思辨议题1:现有人工智能大模型技术现状:能与不能?



图 | 华为昇腾首席布道师 谭涛

特邀嘉宾谭涛(华为昇腾首席布道师)从企业落地视角出发,对当前大模型技术的“能”与“不能”进行了务实反思。他指出,学术界关注的多是理想化的“道”(原理与可能性),而企业在实践中更关注“术”(可行性与落地瓶颈)。尽管大模型在部分场景已具备商用价值,但仍存在几类根本性局限:首先,部分问题本质上难以建模。例如在材料科学中,从光谱、质谱数据反推材料成分与工艺参数,涉及复杂的物理机制,若无法构建有效数学或计算模型,AI便无从学习。其次,现有训练数据难以承载深层知识。当前模型主要依赖文本、图像、视频等表层感知数据,但人类知识具有贯通性与抽象性,而AI尚缺乏将多模态信息整合为可推理、可迁移知识体系的能力。第三,感知维度严重受限。现有传感器主要覆盖视觉与听觉,缺乏对气味、触觉、温度乃至“直觉”等人类多感官体验的采集能力,导致AI无法构建完整的世界模型,也难以实现类人的环境交互。此外,发言还触及更深层的非技术障碍:AI无法承担决策责任。即便模型能输出“正确”答案,因其不具备法律或伦理意义上的责任主体地位(如医生、律师需为判断后果负责),社会难以真正信任其在关键领域的自主决策。综上,当前大模型虽在特定任务上表现优异,但在可建模性、知识深度、感知广度及责任归属等方面仍存在难以逾越的边界,距离真正类人的通用智能仍有显著差距。

在特邀嘉宾的引领下,多位参会嘉宾从不同角度展开思辨,提炼出以下几条核心观点:

1. “能”与“不能”高度依赖应用场景与需求标准:大模型在辅助性、容错率高的任务(如文案生成、信息检索)中表现良好,但在高可靠性、高责任要求的领域(如医疗手术、军事决策、自动驾驶)仍难以胜任。是否“能用”,关键在于任务对准确性、可解释性和责任承担的要求。

2. 数据是能力的上限,但获取存在现实约束:模型能力本质上受限于数据的覆盖范围、质量和获取成本。尽管理论上“所有数据都可获取”,但垂域数据(如医疗、工业)因隐私、合规或投入产出比低而难以规模化收集,导致模型在专业场景泛化能力不足。

3. 多模态感知仍严重受限,缺乏物理世界完整性建模:当前模型主要依赖文本、图像、音频等有限模态,缺乏对气味、触觉、温度等人类多感官信息的感知与建模能力。这使得AI难以构建具有物理一致性的世界模型,例如气象大模型可能预测“无云下雨”,违背基本物理规律。

4. 幻觉与不可解释性是根本性瓶颈:大模型基于统计规律生成答案,缺乏对自身知识边界的认知,容易产生看似合理但错误的“幻觉”。在需要因果推理、逻辑严谨性或可解释决策的场景(如法律、工程设计、科学计算),其输出难以被信任。

5. 通用范式难以覆盖长尾与极端场景:大模型擅长处理高频、常见任务,但在小样本、罕见事件(如极端天气、特殊工业故障)或需要精确数值计算的任务(如日期推算、方程求解)中表现不佳,暴露出其泛化能力的局限。

6. 算力成本构成实际落地的关键障碍:  尽管算法和数据备受关注,但高昂的训练与推理算力成本严重制约高校和中小企业对大模型的研发与应用。未来突破不仅需算法创新,更需硬件与能效优化(如DeepSeek等低成本推理方案),以实现技术普惠。

观点小结:当前大模型虽在通用语言与感知任务上取得显著进展,但在可靠性、物理一致性、多模态融合、责任归属、长尾覆盖和成本效率等方面仍存在明显边界。其“能”是有限条件下的能力,“不能”则是由技术本质与现实约束共同决定的客观局限。

思辨议题2:世界模型的概念与目标、基本框架以及可能的实现途径



图 | 复旦大学可信具身智能研究院助理教授 贾萧松

特邀嘉宾贾萧松(复旦大学可信具身智能研究院助理教授)认为,世界模型的核心在于“预测”——对环境状态的未来演化进行准确预测,支撑智能体的认知与决策,这一范式具有普适性,可应用于从自动驾驶、机器人操作到气象、生物分子等不同尺度的场景,即“世界模型可大可小”。然而,当前以生成式方法为主的世界模型面临物理不一致、多模态感知不足、长期预测失真等挑战,且“预测下一帧”作为表征学习目标的有效性仍存疑。未来应探索融合物理先验、多尺度知识与结构化约束,并将世界模型更多作为高质量表征的来源,服务于强化学习与具身智能等下游决策任务,而非仅限于仿真生成。


在围绕“世界模型的概念与目标、基本框架及实现途径”的深入讨论中,与会专家从多学科视角出发,凝练出以下核心观点:

1.世界模型的本质是服务于决策的预测,而非全量还原现实:与图像生成等任务追求像素级保真不同,世界模型的关键在于识别并建模“与决策相关”的状态变量。例如自动驾驶中,飞鸟通常无关,但若可能坠落则需纳入预测。因此,模型应区分变量是否可被智能体影响、是否对决策有反馈,聚焦于任务相关的子空间,而非盲目重建全部感知信息。

2. 当前生成式世界模型面临物理一致性与长期推理的瓶颈:  现有视频生成模型(如扩散模型)虽能产出视觉逼真内容,但常违反物理规律(如“无云下雨”)、缺乏长期一致性,且难以支持复杂交互(如抓取衣物涉及材质与力学)。这表明仅靠数据驱动的统计学习不足以构建可靠的世界模型,需融合物理先验与结构化知识。

3. 多模态底层表征比语言抽象更接近“真实世界”建模: 人类语言是对世界的高度抽象和符号化编码,信息带宽远低于原始感知(如视觉、触觉)。直接依赖语言迁移构建世界模型可能“走偏”。真正的世界模型应建立在更底层的多模态、连续、物理对齐的表征之上,如空间结构、动力学规律,而非仅靠文本描述。

4. 因果推理与知识融合是突破的关键方向:纯数据驱动难以发现因果机制,而世界模型需理解“干预”与“反事实”。未来应探索将大模型作为知识载体,与因果推理(如结构因果模型)结合:大模型提供先验知识,因果框架提供可解释、可干预的推理能力,二者互促,提升模型的鲁棒性与决策可信度。

5. 世界模型需具备“感知—推理—行动”闭环能力:理想的世界模型不应止于预测下一帧,而应作为智能体的“内部仿真器”,支持对环境的主动探索、假设推演与策略优化。例如气象模型若能模拟“台风路径受干预影响”,才真正具备世界模型意义。这要求模型集成感知、动态建模与执行反馈机制。

6. 发展路径应借鉴人类认知,从具身交互中学习,逐步抽象:类似儿童通过视觉与动手操作积累经验再形成知识,世界模型也应从交互数据(如机器人试错、视频中的动作-结果关联)中学习,再将经验提炼为可泛化的知识(如物理定律、逻辑规则),实现“具身感知”与“符号抽象”的协同演进。

观点小结:世界模型的构建需超越当前以生成为导向的范式,转向以任务驱动、物理对齐、因果可解释、多模态融合为核心的智能体内部仿真系统,其发展不仅是技术问题,更是对“如何表征世界”这一认知科学命题的重新探索。


思辨议题3:世界模型能否有助于实现通用人工智能(AGI)?



图 | 复旦大学可信具身智能研究院副研究员 叶子逸

叶子逸(复旦大学可信具身智能研究院副研究员)从认知科学与人工智能融合的视角出发,认为世界模型有望推动通用人工智能(AGI)的发展,主要体现在三方面:一是借鉴人类“预测编码”机制,通过预测未来状态(如下一帧或事件)构建统一、高效的环境表征,已有研究表明大规模模型的表征正趋近生物神经信号的模式;二是突破语言模型的局限,通过多模态交互(视觉、触觉乃至机器可感知的无线电等信号)获取语言难以传递的空间与物理常识,例如判断竹竿能否穿过门框这类具身推理问题;三是通过与真实世界的持续交互,逐步习得人类与生俱来的常识与本能反应(如物体稳定性判断),弥补当前大模型依赖显式推理而缺乏直觉性认知的短板。然而,他也指出根本性挑战:物理世界的混沌性(如蝴蝶效应)使得完全精确的仿真几乎不可能,且现有深度模型的高能耗与低效推理难以匹配人类智能的能效与实时响应能力。因此,世界模型虽为通向AGI的重要路径,但其通用性仍受限于建模精度、物理可预测性与计算效率的多重约束。

在特邀嘉宾的启发下,参会嘉宾积极发表见解,核心观点如下:

1. 世界模型是通向AGI的必要但不充分条件:世界模型通过预测环境演化、支持决策与交互,为AGI提供基础能力,尤其在具身智能中不可或缺。然而,仅靠世界模型无法实现AGI,还需融合长期学习、价值观对齐、工具使用、因果推理等多重能力。

2. AGI的定义尚不统一,需明确能力边界与评估标准:与会者指出,“通用人工智能”缺乏共识性定义——是具备小学生水平的泛化能力,还是能自主创新、使用任意工具、理解社会伦理?不同定义对应不同技术路径。有观点认为AGI应能像人类一样感知、思考、决策、学习新技能并协作,甚至具备情感理解与道德判断。

3. 具身性(Embodiment)是区分虚拟智能与真正AGI的关键:多位机器人领域专家强调,真正的AGI需依托物理本体(如机器人),通过与真实环境的持续交互(感知、行动、反馈)构建对世界的理解。相比之下,当前大模型多运行于虚拟空间,缺乏对物理规律(如摩擦力、材质属性)的深层建模,难以实现可靠具身智能。

4. 多模态底层感知与常识认知亟待突破:人类智能不仅依赖视觉与语言,还包含触觉、情绪、微表情等难以数据化的主观体验。世界模型需超越像素级重建,融合多模态信号(如雷达、无线、运动传感)以获取更完整的环境表征,并通过交互习得物理常识(如物体稳定性、空间关系),弥补当前模型“缺乏直觉”的短板。

5. 认知 ≠ 感知,AGI需跨越“感知—认知—决策”链条:感知是对环境的原始输入(如形状、距离),而认知涉及对意义、因果与功能的理解(如“石头可作凳子”)。AGI需在结构建模(类脑结构)与功能实现(类脑功能)之间取得平衡,既理解世界“是什么”,也理解“能做什么”及其社会文化语境。

6. 安全、价值观对齐与自主目标设定是AGI的核心挑战:当前AI系统仍处于人类完全控制之下(目标由人设定),而真正AGI可能具备自主设定目标的能力——这既是里程碑,也是风险点。因此,如何确保模型与人类价值观对齐、具备伦理约束、避免被滥用(如优化剥削性策略),是实现可信AGI的前提。

7. AGI的终极愿景:逼近世界本源规律: 有观点将AGI视为人类认知的延伸——不仅模拟世界,更能像牛顿、爱因斯坦那样从数据中发现普适物理定律,逼近宇宙真相。这要求模型超越统计关联,具备抽象、假设、验证与理论构建能力,目前仍是遥远目标。

观点小结:世界模型为AGI提供了重要路径,尤其在具身交互与环境预测方面,但AGI的实现还需在认知架构、物理理解、价值对齐、自主性与理论发现等维度取得系统性突破。当前技术仍处于“弱通用”阶段,距离真正意义上的通用人工智能仍有显著差距。

论坛总结


本次CCF YOCSEF南京技术论坛以“人工智能大模型技术演进:从大语言模型到世界模型”为主题,深入探讨了大模型的能力边界、世界模型的内涵与实现路径,及其在通往通用人工智能(AGI)进程中的作用。与会专家共识认为:大语言模型虽在语言任务上表现卓越,但受限于幻觉、常识缺失与感知维度单一;世界模型作为潜在突破口,其核心在于构建服务于决策的、可预测的环境内部表征,而非全量还原现实。然而,当前世界模型仍面临物理一致性不足、多模态融合困难、长期推理薄弱等挑战。论坛强调,真正的AGI需具备具身性、因果推理、价值观对齐与自主目标设定等多重能力,世界模型是必要但不充分条件。未来方向应融合显式物理先验与隐式生成能力,借鉴人类认知发展路径,推动数据、算法、硬件与伦理协同演进,方能在通向可信、可靠、可用的通用人工智能道路上取得实质性突破。



图 | 论坛精彩瞬间

撰稿:王利民,朱光辉

审核:朱光辉,孙倩

编辑:孟凡



热门动态
2025-01-20
信息爆炸时代下,推荐算法的广泛使用解决了信息过载问题,但同时...
2025-01-19
2025年1月12日,中国计算机学会青年计算机科技论坛南京分论坛(...
2024-12-16
大学生作为一个特殊社会群体,面临着学业、就业、人际关系等多重...
2024-11-18
2024年11月09日,CCF YOCSEF南京钟山论剑观点论坛——“智法新时...
2024-11-05
2024年10月26日,CNCC 2024技术论坛:“探索大语言模型的潜能与...
2024-08-25
2024年8月18日,CCF YOCSEF南京钟山论剑观点论坛——“从‘循序...
2024-07-10
2024年6月22日,中国计算机学会青年计算机科技论坛南京分论坛(...
2024-07-10
2024年6月16日,由CCF YOCSEF南京举办的“大模型赋能材料科学创...
2024-06-03
      习近平总书记在黑龙江考察期间首次提出的“新质生产力”理...
2024-05-30
2024年4月20-21日,CCF YOCSEF南京不负春光,在南京市江宁区花筑...
2024-03-19
2024年考研成绩新鲜出炉,今年的考研人数虽然有所下降,但也达到...
2024-01-18
参会人员集体合影留念2024年1月14日,中国计算机学会青年计算机...
2023-12-26
2023年12月16日,CCF YOCSEF南京在南京市江宁区数动未来空间举办...
2023-11-24
2023年11月4日,由CCF YOCSEF南京举办的“计算机技术如何助力青...
2023-08-27
2023年8月19日,CCF YOCSEF南京在南京邮电大学仙林校区计算机学...
2023-08-14
2023届毕业生达历史之最的1158万人,而当下的考研人数越来越多,...
2023-08-10
2023年7月25日,CCF YOCSEF南京成功举办了钟山论剑技术论坛“打...
CCF聚焦