具身智能要求机器具备敏锐、灵活的环境感知能力,其最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出类人的行为反应。尽管大语言模型能够利用既有知识进行归纳和推理,但其推理、规划以及对物理世界的理解仍无法与人类相提并论。因此,如何使智能体具备人类的智力行为成为具身智能发展的核心挑战。大脑作为通用智能的唯一实例,为人工智能的发展提供了重要参照。研究大脑中感知、认知、记忆、学习、决策等功能。提出可借鉴的原理、模型和系统实现方案,能为具身智能奠定认知思维基础。
2024年10月19日,CCF YOCSEF兰州在前期调研的基础上,在兰州白云宾馆西楼六楼水仙厅举办了“脑科学研究如何为具身智能注入‘心智’?”的技术论坛,就具身智能发展过程中的“心智”问题,从脑科学、认知科学、脑机交互以及机器人系统控制等角度展开了充分讨论。论坛由CCF YOCSEF兰州副主席郑炜豪(兰州大学)和CCF YOCSEF兰州学术秘书常文文(兰州交通大学)担任执行主席。
本次论坛邀请到北京师范大学认知神经科学与学习国家重点实验室张语轩研究员,浙江大学智能科学与工业软件研究所张宁豫副教授,哈尔滨工业大学(深圳)计算机科学与技术学院宋贞羲副教授以及兰州大学付钰研究员作为引导嘉宾,西北师范大学尹玉龙副教授、兰州大学赵东东副教授、西北师范大学陶中幸副教授、兰州大学马昌胜副教授、兰州大学吴雪梅博士以及兰州交通大学饶娟博士作为特邀嘉宾参与了思辨讨论。CCF YOCSEF兰州AC委员,以及来自当地高校和企业的知名专家学者共40余人参与了本次活动。
图1 会议开始
张语轩研究员首先作了题为“认知与智能:从脑机制到认知理论的一点思考”的引导发言。语轩从哲学层面、神经科学层面就认知的基本概念做了专业细致的解析,介绍了人脑的认知加工系统以及感知、记忆、情感和社交等基本的认知活动,并从如何“具身”、如何“交互”、如何进行“类脑感知”、如何进行“类人决策”的角度就具身智能的构建问题发表了自己独特的观点,最后就可应用到具身智能认知域研究的关键理论做了简单的梳理和介绍。
图2 张语轩引导发言
接着,张宁豫作了题为“大模型知识机理与应用”的引导发言,宁豫首先介绍了大模型知识机理的研究现状和基本的研究方法,随后基于回路的概念,介绍了回路假设理论,即“大语言模型可能通过模块化组合以完成知识的表达”的观点。并就大模型知识编辑、大模型知识(记忆)更新等问题做了详细介绍。
图3 张宁豫引导发言
随后,宋贞羲作了“具身智能时代的脑机接口应用前瞻与初探”的发言,贞羲首先给大家介绍了脑机接口的概念以及基本的范式类型,结合具身智能大背景,从基于环境自适应的导航机器人,到基于经验化的扫地机器人,在到人机交互中需要塑造物理行为与认知结构的具身机器人,引入基于语音交互和摇杆交互范式的脑机交互的概念,并介绍了目前脑机交互领域的最新研究成果和前瞻应用案例。最后,结合她们团队的创新工作,重点从范式与机制、算法革新、个体化与泛化性以及系统协同调整等方面介绍了具身智能背景下未来脑机接口发展的重点方向。
图4 宋贞羲引导发言
最后,付钰作了“多模态神经影像的成像、分析与理解”的发言,付钰从超低放射性神经影像成像需求出发,介绍了基于2.5D框架的普适性多模态超低放射性神经影像重建方法和基于3D框架的高精度超低放射性神经影像重建方法。并就自己团队开发的超低放射性成像与辅助诊断系统的临床应用和未来可能的推广作了详细介绍。最后,付钰就脑神经影像成像分析在具身智能“心智”理论发展中的可能应用发表了自己的观点。
图5 付钰引导发言
思辨议题1:具身智能应具备哪些基础认知能力?
具体智能的基本认知能力应根据其所面对的具体应用场景展开讨论,类比大脑的认知理论,应具备基本的生物学基础。与会嘉宾从认知的生物学基础、大模型的认知推理能力,以及具身智能体在人机交互过程中应具备的基本能力等角度展开了广泛讨论,最终嘉宾们的输出观点如下:
1.应搞清楚具身智能体认知能力背后的生物学基础。具身智能需与环境进行交互,机器人的认知能力缺乏生物学基础,能否反映人类认知情感仍待探讨,未来具身智能认知能力可能需要依赖于生物仿生技术来更好地实现。
2.具身智能应具备基本的感知和运动控制能力,以更好地与环境交互。大模型虽具备某种认知能力,但缺乏真实感知,例如无法体验饥饿感,仅能通过大量的案例和模型训练进行概率性的输出。只把大模型注入到机器人系统不能完全意义上解决具身智能体的认知问题。
3.具身智能应具备模仿学习的能力。具身智能认知水平目前处于初级阶段,对机器人认知能力的训练也需要和教小孩一样,一步步的由易到难来循序渐进,要让具身智能具备自学习的能力。
4.具身智能应具备一定的社会认知能力。比如社交和情感方面的能力,这可能是让具身智能更像人类的关键因素。当然也应该确保其社交和情感能力要有边界和约束,这不仅是能力的提升,也是对伦理责任的保障。
5.具身智能应具备主动推理的能力。主动推理是指在面对问题时,个体通过分析、预测未来发展和形成逻辑链,主动解决问题的过程。具体智能体应具备这种推动推理的能能力,但是大模型似乎不具备这方面的能力,应该更多从脑认知的角度寻找启发。
图6 思辨点1讨论
思辨议题2:目前可应用于具身智能认知域研究的脑科学理论、技术及其局限性。
针对具身智能认知域研究中可能涉及的脑科学相关基本理论和有关技术,与会嘉宾分别从脑认知科学、大模型、人机交互、人工智能等角度展开讨论,专家们认为在脑认知科学领域,有很多相关的基础理论能够解决具身智能发展当中的某些问题,但是理论的具体实现或应用是一个难点,需要开展广泛的实践探索。最终嘉宾们的输出观点如下:
1.脚手架理论和最近发展区理论。可借鉴这两条理论对具身智能体进行训练,通过逐步分解任务和逐渐减少指导,帮助具身机器人实现从意识控制到自动化的认知提升。
2.预测编码理论。预测编码理论在多个领域引发了深刻的讨论,尤其是它如何与情感、知觉等认知过程相结合。这种跨学科的视角可以激发许多有趣的研究方向,特别是在理解人类如何感知世界、建构情绪,以及如何将这些理论应用于智能系统中。
3.双系统表征理论。人类大脑存在两种不同的认知处理系统:主动推理系统和直觉感知系统。主动推理系统负责理性思考和逻辑推理,而直觉感知系统则基于直观和经验快速处理信息。
4.智能的第一性原理。生命的第一性原理在于自组织。尽管有多种方案和路径尝试实现自组织神经网络,当前仍未能跨越动物智能与人类智能之间的鸿沟,尤其是在如何从基本感知演化到符号智能这一点上,学界尚无定论。具身智能的发展也要遵循第一性原理。
5.多模态大模型技术。大模型需要通过累积知识和经验来提高推理能力,尤其是在感知和理解环境方面。多模态感知的实现,如3D建模和文本处理,能够更全面地模拟人类的感知体验。
6.脑机交互技术。具身机器人它是一个多系统协同的智能体,它不像人一样是一个完全自组织的系统。基于脑机接口的语音解码可以实现对环境的动态感知,这个过程中结合大语言模型能够帮助脑机接口系统更好地解码人的意图,从而更好地实现多智能系统协调的具身智能体。
图7 思辨点2讨论
思辨议题3:如何提升具身智能的“心智”,进而构建可行技术路径?
具身智能体的开发,离不开大模型以及类脑人工智能等技术的支持,经过与会专家的讨论,大家认为,构建具身智能的可行技术路径,需要根据具体的应用场景来展开讨论,可以借助生物芯片等方式实现对理论和算法的集成,多模态大模型、小样本学习以及类脑人工智能等都是未来助力具体智能“心智”发展的重要途径。最终嘉宾们的输出观点如下:
1.技术路线取决于具体的应用场景,不同的场景需要不同的技术路线。例如日常生活场景中的具身机器人(如家用的保姆机器人)和工业领域的具身机器人(工厂里面自动化生产线上的机器人)对认知能力的要求不同, 具体的实现路径有差异。
2.实现具身智能的途径可分为两条,一条是脑科学的途径,另一条是大模型的方式。通过生物芯片集成的方式实现对神经信号的编解码或是可解释化的处理,在处理高级认知任务的时候,其计算效率远高于现有传统模式的芯片。
4.基于大模型的途径必须深入理解和整合非语言的感知信息。当前的大模型主要基于文本数据,这限制了它们的感知能力,需要将非语言信息(如视觉、听觉等感知数据)有效地融入到大模型中,这样可以使模型不仅依赖于抽象的语言表征,而是能够理解和表现更全面的现实世界。
5.可通过持续学习的方式来解决灾难性遗忘的问题。灾难性遗忘确实是当前大模型面临的一大挑战。为确保它能持续不断地进化,提升能力,需要解决灾难性遗忘的问题。记忆模块的引入也是关键,它能帮助模型持续学习并更新记忆,避免灾难性遗忘,从而提升应用价值。
6.类脑智能、小样本学习等是大模型之外的可行路径。大模型不是万能的,也不是所有的具身智能体必须走大模型这条路。类脑启发的智能算法以及小样本学习在具身智能发展过程中也显得尤为必要,它可以让模型在数据稀缺的情况下迅速适应新环境。
图8 思辨点3讨论
最后,CCF YOCSEF兰州现任主席王娟就本次技术论坛作了总结,就各位嘉宾的到来和热烈的讨论表示感谢。
图9 论坛活动参与成员合影
感谢参与本次论坛的各位嘉宾和参会者、兰州本地高校以及本地企业对本次活动的大力支持。