2022年6月11日,中国计算机学会(CCF)在2022年青年精英大会(YEF 2022)期间,成功举办了“AI4Science:人工智能如何助力科学计算与发现?”专题论坛。本次论坛由中国计算机学会主办,CCF青年计算机科技论坛长沙分论坛AC委员会(YOCSEF长沙)、湖南大学信息科学与工程学院承办,中南大学计算机学院、湖南第一师范学院协办。YOCSEF长沙主席、湖南大学杨超副教授,YOCSEF长沙AC委员、中南大学王森章教授担任论坛执行主席。来自YOCSEF长沙分论坛学术委员会的满君丰、赵宝康、邝祝芳、付绍静、姜文君、陈海兵、张士庚、魏叶华、张世文、张嘉莲、廖璟、杨征、纪军刚、陈果及线上的近20000名专家学者共同参加了本次论坛。
随着人工智能技术的快速发展和广泛应用,对其他科学领域,包括数学、物理、生物信息、气象、材料等的科学发现范式产生了深刻的影响。例如,人工智能模型AlphaFold在蛋白质折叠预测方面取得了非常高的准确率,在科学界引起了广泛关注与讨论。如何将AI技术与其他科学领域深度融合,加速科研流程、助力科学发现、解决重大科学计算问题,成为当前人工智能以及其他科学领域的前沿交叉热点,并很有可能带来的新的科研范式的变革。AI for Science正在成为前沿热点研究问题,阿里达摩院在《2022十大科技趋势》报告中将AI4Science列为十大趋势之首,认为“人工智能成为科学家的新生产工具,催生科研新范式”。人工智能与机器学习顶级会议ICML2022和NeurIPS2021都举办了AI4Science的workshop,对相关问题进行聚焦研讨。美国的多所知名高校和科研机构也纷纷成立了AI4Science的研究实验室,包括加州理工、阿贡国家实验室、阿兰图灵实验室、MIT、谷歌DeepMind等。中国在2021年9月由鄂维南院士领衔成立了北京科学智能研究院,致力于将人工智能技术与科学研究相结合,推动科学研究范式的革新。鄂院士所领导的北京科学智能研究院,在融合机器学习方法和偏微分方程、流体动力学、分子动力学等方面作出了突破性的工作,团队利用机器学习方法将第一性原理精度的分子动力学的极限推到 1 亿个原子,获得了国际高性能计算领域最高奖戈登贝尔奖。
图1 论坛介绍
本次论坛邀请了中国科学院鄂维南院士为引导发言嘉宾,匹兹堡大学贾晓未助理教授、中国科学院理论物理研究所张潘研究员、中南大学李敏教授、中国科学技术大学陈景润教授及华为技术有限公司中央软件院王紫东博士为报告嘉宾,分别从物理机理引导的AI模型设计、基于AI的统计物理计算方法、基于AI的生物信息领域的知识发现、基于AI的偏微分方程求解方法进行阐述,进而从企业视角介绍AI4Science深度学习框架开发及若干应用与创新。
图2 中国科学院鄂维南院士做引导发言
鄂维南院士给我们带来的引导发言主题是《AI for Science时代我们应该如何规划自己的研究课题》,鄂院士2018年8月在北大静园首次组织了AI for Science研讨会,2021年9月领衔成立了北京科学智能研究院,致力于将人工智能技术与科学研究相结合,推动科学研究范式的革新。鄂院士高屋建瓴的用一张图概括了基于多尺度建模,应用量子力学、密度泛函、分子动力学模型来实现化学、物理、材料、机械工程、电子工程的物理模型。而AI对模型本身处理能力的提高,正迅速影响着数学、物理学、化学、材料学、生物学等各个传统科学领域。鄂院士指出AI for Science不能简单看成是另外一种机器学习或数据驱动的问题,需要深刻了解深层次的物理模型和科学模型,才能把AI for Science的研究推向深入。最后,鄂院士建议对AI for Science领域感兴趣的学者,特别是年轻学者在AI for Science的研究热潮中,要关注实际的物理模型、公式机理,要想清楚自己要解决的问题本质,选择具体的课题进行深入研究。该领域国内也有很好的工作,未来发展空间巨大,鼓励大家积极思考,做出更有意义的工作。
图3 匹兹堡大学贾晓未教授做学术报告
匹兹堡大学计算机学院的贾晓未教授给我们带来了《Physics Guided Machine Learning for Scientific Knowledge Discovery》的报告。贾晓未教授提到尽管数据科学模型和机器学习模型被广泛使用,但由于所建模对象的物理过程表示不完整或不准确,这些模型存在很大的局限性。传感器技术的发展使得我们可以获取大量数据,因此可以通过使用机器学习方法系统地推进这些领域的建模。然而,能否抓住这一机会取决于数据密集型科学发现的范式转变,因为机器的“黑箱”使用往往会导致科学应用中错误的科学发现。由于科学应用假设空间的复杂性,且解空间呈指数级增长,因此数据驱动的方法可能会产生不可解释的过拟合模型。尤其当缺乏标记样本时,这一问题会变得更严重。贾晓未教授通过探索将科学知识和机器学习模型结合的方法,为物理引导的机器学习奠定基础。其所提出的方法已经证明了在预测湖泊和河流系统水温方面的有效性。该工作也有可能极大地推动其他一些使用物理模型的科学和工程学科的发现,例如水文学、气候科学、材料科学、动力工程等。
图4 中科院理论物理研究所张潘研究员做报告
中科院理论物理研究所张潘研究员分享了《统计物理的计算方法:从平均场到神经网络,再到张量网络》的报告。在报告中,张潘研究员介绍了如何基于神经网络构造变分方法,基于张量网络怎么构造近似和严格算法,用于求解统计力学问题,并应用到自旋玻璃、机器学习以及量子计算机模拟等问题中。
图5 中南大学计算机学院李敏教授做报告
接下来,中南大学计算机学院李敏教授以“生物医学知识发现:人工智能方法及应用研究”为主题进行报告,将基于大数据的人工智能应用到生物医学领域,对复杂、高维、多源异构的生物医学大数据进行有效的挖掘提出了集成学习方法loop Predictor,对未知的蛋白质进行预测,并从基因组结构解析、蛋白质相互作用预测、药物靶标预测等不同层次的多个具体案例,探讨人工智能如何助力生物医学知识发现。进一步,提出BridgeDPI网络用于药物蛋白质相互作用预测。
图6 中国科学技术大学陈景润教授作报告
中国科学技术大学的陈景润教授带来《Solving Partial Differential Equations by Deep Neural Networks》的主题报告,主要介绍了如何利用深度神经网络来解偏微分方程。陈景润教授指出基于多项式预定义来求解问题的方法,对高维问题存在维数灾难,而机器学习方法可以解决高维问题。他将领域知识引入来设计高效的机器学习方法,主要围绕模型和优化两个问题,介绍了如何设计解决偏微分方程的深度神经网络模型。模型方面,提出用离散再学习的方法求解高维问题,可以有效处理解不光滑的问题;优化方面,提出基于自适应矩估计的无梯度全局优化方法,可以处理激活函数不光滑的深度学习模型。
图7 华为中央研究院的王紫东博士报告
华为中央软件院的王紫东博士分享了《AI科学计算业界趋势和昇思MindSpore实践》的主题报告。在报告中,王紫东博士主要介绍了华为MindSpore深度学习框架在AI4Science方面架构设计开发,并分享了业界发展趋势。他提到AI在计算机视觉、自然语言处理等领域已取得一定成功,其影响已扩展至科学和工程等诸多领域。AI在蛋白质结构预测、分子模拟、流体气象以及微分方程求解等传统科学领域已取得革命性的突破,如AlphaFold2在蛋白质结构预测中取得了很好的精度。传统科学领域悄然成为了AI新的主战场,AI for Science是科学计算的新范式。昇思MindSpore从创立之初便积极布局,不仅提供了AI融合框架的基础底座,还投入研发电磁、气象、制药、航空航天四大领域,取得了一定进展。
在精彩的主题报告之后,论坛进入思辨环节。本次论坛围绕“AI for Science,融合还是颠覆?”和“AI for Science,还是Science for AI”两个思辨主题,设计了“AI会颠覆科学发现和计算的现有范式吗?”、“AI如何与现有科学发现范式进行融合”、“ 究竟是人工智能助力科学规律发现,还是科学规律助力AI模型的设计?”和“我们该相信AI发现的科学规律以及给出的科学计算结果吗?”4个议题展开思辨。
王森章博士主持第一个主题“AI for Science,融合还是颠覆?”的思辨。 他指出,AI技术的发展对很多领域的科研工作都产生了很大影响。甚至当前有一种声音说:AI将会颠覆现有科学发现的范式。我们知道,传统上的科研范式包括基于实验发现的、基于理论研究的以及基于仿真模拟的。近年来,又出现了基于AI和大数据的第四科学范式,并在很多领域大放异彩。
图8 王森章博士主持第一个思辨环节
针对第一个议题“AI是否会颠覆科学发现和计算的现有范式”,嘉宾和线上参会者的观点总结如下:
陈景润认为,目前还不能说AI会颠覆科学领域计算和发现的范式,但是AI与科学确实可以进行更好的融合。传统的科学计算中有很多困难的问题,如物理科学领域涉及到很多高维数据的处理。由于实验手段限制或者测量手段的不足,所得到的很多数据存在误差,在这些情况下,AI技术确实可以提供很大帮助。AI与传统科学领域的深度融合,可极大拓展该领域解决问题的能力。以偏微分方程求解为例,传统上是针对某一类具体的偏微分方程,需要采用与之相应的求解方法和技巧。现在用AI来求解,所有方程的求解过程都放在一起进行无差别训练学习。因此对于AI来说所有的方程求解方式是一样的,只是具体形式有差别,这确实在客观上降低了从事数学研究的门槛。以前从事数学研究的学者需要花很多时间去学习微分方程,现在将AI模型和微分方程给一个学习过微积分的大学生,他不需要对方程本身有很深的理解,也可以使用AI工具将这些方法跑起来并解出微分方程。这种影响会持续下去。
王紫东认为,AI对于科学计算领域是以融合的方式进行颠覆。有了AI技术就完全抛弃传统的科学计算和发现范式是不现实的,但是AI会与传统的范式进行深度结合。结合之后可能会产生与传统方式相比颠覆性的效果,所以范式很难颠覆,但是过程和结果可能是颠覆性的。
王森章认为,“颠覆”这个词可能会有争议,但是AI确实会对现有科学范式产生重要影响。在数学领域,AI发展到一定程度会成为一种非常有效的计算工具,例如偏微分方程的求解。非数学专业的学者也可以使用AI工具从事数学相关的研究,也可能发现一些重要的数学原理或得到一些重要结论。这会使得数学这门艰深的学科的研究门槛大大降低,这是传统范式所无法实现的。因此,AI将会成为很多学科必不可少的科研工具,有力支撑各种复杂科学问题的研究。
赵宝康认为,AI不能颠覆科学计算范式,但是可以促进科学计算,降低科学研究的技术门槛。AI技术本身还有很多问题,尤其是现在非常热门的深度学习技术主要是做拟合,学习推理能力依然很欠缺。具体来说,目前的AI有两个地方是不足的:一个是AI本身泛化性和通用性较差,大部分AI只针对特定任务和特定模型,难举一反三。让AI去发现普遍性的规律,或是创造性的东西还是比较难的。二是AI在科学探索和发现过程中发现科学变量因果关系的能力比较差。现有AI主要做拟合和预测,擅长发现相关性,但是无法给出变量间明确的因果性。总之,现在AI在科学发现和计算中可以起到重要作用,但还无法作为颠覆性的技术。将来需要发展出通用的人工智能,并在因果推理方面有所突破之后,才有可能真正去颠覆现有的范式。
贾晓未认为,现在谈能否颠覆还为时过早,但不排除以后有颠覆的可能性。现在学者们用AI去做科学计算的出发点是不同的。大多数学者是从机器学习的角度出发,从具体应用中采集相关的数据集,然后做出一个新的机器学习模型,并证明模型在该数据集上取得很好效果。这类方法在真实情况下的适用范围有限。将机器学习模型应用于真实的科学计算与发现任务之前还需要更多更全面的验证,在实验室中的小数据集上的验证结果还是远远不够的。目前很多领域不信任AI分析的结果,也很难用AI的预测结果真正用于辅助重要决策,例如疾病诊断和政府重大决策等。所以AI模型的设计和验证不能仅从机器学习的角度,而是模型设计者要将模型封装好,然后交由各个领域的科学家去使用、验证,在真实应用场景中去测试AI模型的稳定性和鲁棒性。此外还有很多其他的学习问题,如不确定估计是否能给出一些AI判断的依据、AI模型能不能自我学习更新等,这些都是现在的AI所不具备的能力。只有等AI具备这些能力,各个领域的科学家才会考虑在真实场景下使用AI模型。
在第一个思辨议题中,大多数观点认为AI还不会颠覆现有范式,未来能否颠覆有待AI技术的发展。现在的AI技术对很多领域的科学研究和发现产生深远影响,那么AI会以怎么样的方式和现有的科学发现范式进行融合呢?参会者针对第二个思辨议题“AI如何与现有科学发现范式融合?”展开思辨,主要的观点总结如下:
陈景润认为,这与所选择的具体科学问题有关。在一些传统领域中,有一些问题是AI能提供帮助,并且有机会产生一个较好的效果。不过关键还是要找一些比较有代表性的、AI比较合适切入的问题,这样才会有一个比较好的示范性的效果。
王紫东认为,主要是要看科学中有哪些有问题是AI可以解决的。AI一般来说可以解决精度问题和性能问题,比如说做流体的时候,NS方程不好解,需要搞个代理模型,而这个模型也是用人工经验去解决,这时候就很适合用AI去解决,通过一些数据驱动的方式,去进行总结。AI比较适合针对设计有需求的场景,因为其参数空间很大,而传统算法的计算能力有限,没有办法穷举,这时候就可以使用AI。即使AI给出的结果也不太好,也可以验证一下结果是否符合预期,为后续解决方法的确定提供参考和思路。
王森章认为,AI与科学怎么融合,得看具体应用以及具体场景来决定是否适合融合。因为传统的研究中也有着大量的数据,那么有没有一种通用的范式,可以让研究人员逐步形成使用“AI+”的思维模型来做研究?
贾晓未认为,AI和科学融合还是要鼓励跨学科深度合作,找出传统科学不足,比如精度、性能等不够的地方,就需要AI来参与。比如做物理领域的机器学习模型时,就需要物理和机器学习的专家一起进行深入的讨论,而不只是机器学习专家独自面对物理公式,而不与物理学家交流。另外,不光是各个科学领域的研究需要大量的分析和实验,机器学习方法本身同样需要大量的数据才能学习到有用的信息。至于是否需要通用的AI框架,我认为通用AI的实现非常困难,作为折中,当前我们在模拟一个复杂物理系统的时候,可以首先对系统进行模块化分解,每一个模块既包含有传统物理模型,也包含AI模型,两方面互相补充,我们需要设计一种有效机制决定用哪个模块需要AI模型来辅助或补充。
姜文君认为,对于AI如何与现有科学发现范式进行融合,我特别赞同“模块化”的思想。我认为模块化能够有效融合AI技术、数据专家、领域专家等各方面力量,像拼图一样,各方一起协同提升对整个问题的认识和解决。另外,融合过程中是否可能产生一些协议或类似标准件的产品,方便各方协同发力,也方便AI技术更容易地被更多领域和更多场景使用。
接下来,杨超博士主持了第二个主题“AI for Science,还是Science for AI?”的思辨。很多领域科学研究的学者可能更加关注AI for science,就是AI如何作为一种新范式和工具来助力于科学发现;而人工智能领域的专家可能会思考,难道science不能辅助AI模型的设计吗?或者助力于AI模型的进化升级吗?所以,究竟是AI for Science还是Science for AI?针对这个问题,本论坛进一步设计了两个更具体的议题。第一个议题是:究竟是人工智能助力科学规律发现,还是科学规律助力AI模型的设计?第二个议题是:我们该相信AI发现的科学规律以及给出的科学计算结果吗?
图9 杨超博士主持第二个思辨议题
针对第一个议题“究竟是人工智能助力科学规律发现,还是科学规律助力AI模型的设计?”,论坛报告嘉宾以及线上参会专家学者分享了许多精彩而独到的观点。
陈景润认为,在借助AI工具解决领域问题时,随着领域问题的解决,也会反过来对AI的发展有所贡献。比如用深度神经网络解偏微分方程,神经网络作为黑盒子可以作为函数逼近的工具。很多神经网络也有相应的数学上的解释,例如鄂维南教授在resnet数学模型上有一些理解,反过来可以指导我们更好的设计神经网络。再例如当前流行的transformer神经网络,里面要算关联矩阵,如果输入序列长度较长的话,计算的复杂度是n2的,如果充分利用矩阵机制结构来设计基于transformer的自然语言模型,就可以在不牺牲逼近能力的情况下,减少模型参数。所以AI可以助力数学学科的计算和发现,数学学科的计算和发现也可以助力于AI模型的设计。
王紫东认为,AI和Science是一个相互循环、互相促进的过程。就像开普勒范式,这种范式主要是数据驱动的,当时的研究者也没有特别清楚内在规律性。因此只要我们有足够的关键数据,就可能使用AI强大的数据处理能力发现一些有用的结果,或者对科学规律的发现产生启发式的、有益的结果。又比如我们可以先设计一个初始AI模型,通过大量的真实数据,训练模型得到一些规律。可是此时模型的表达能力是不够的,这时如果我们掌握一些数学模型,将数学模型反补到AI模型中去,就可以催生出更强大、表达能力更强的AI模型。
贾晓未认为,现在AI的模型有局限性,需要对模型有所创新,比如有些数学公式是可以直接加入神经网络中的。例如,对于神经网络模型CNN而言,在池化层操作中,就可以引入数学的对称守恒来保证图像的一些性质。科学规律可以指导我们通过调整AI模型的结构,在缩小训练数据的同时,保持AI模型的准确性。我们还可以在科学规律的指引下有针对性进行数据增强,这在原始训练数据比较少、难以训练一个有效AI模型的情况下非常重要。因为现有的AI模型都是需要大量的训练数据作为支撑。因此,从数据的角度来说,当原始数据比较少的时候,科学模型可以指导我们来模拟生成大量的训练数据,从而提高AI模型的精度。
AI本身也是科学,而且与其他领域的科学其实存在着相辅相成的关系。AI改变了其他学科的科研范式,加速了科研效率;而其他科学领域的发展以及对AI的技术需求,又加速了AI本身的发展。但是,我们在使用AI来帮助我们解决科学问题的时候,在具体操作层面我们还面临着一个重要问题:AI给出的结果是不是我们所要的?针对第二个议题“我们该相信AI发现的科学规律以及给出的科学计算结果吗?”,论坛报告嘉宾以及线上参会专家学者分享了以下观点。
邝祝芳认为,AI模型目前尽管有很多的问题,比如可解释性差、鲁棒性差、易受攻击等,但是只要我们能够提供给AI高质量的数据,并加以规则指导,就可以产生出很多可信的结果。例如谷歌的DeepMind团队已经实现了使用深度强化学习模型来控制核聚变,成果发表在今年2月份的nature上。核聚变的安全性要求非常高,而AI模型可以有效控制核聚变,本身就说明了计算结果的高度可信性。另外,基于AI的新材料发现、新药物研发、智慧医疗、天气预报等领域都得到广泛应用,证明了其结果的有效性。
贾晓未认为,目前阶段AI的结果在很多场合有较高精度,所以可以给领域专家提供一些参考意见,但还很难只单独根据AI结果做决策,尤其在一些极端场合,比如预测极端天气场景,病人疾病严重程度等。AI模型需要提供更多的解释性为专家提供判断依据,并且针对自身的不确定性给出评估。
王紫东认为,和传统科学计算的评价体系类似,当一个新的公理或者猜想提出来,也是需要通过已经建立的科学方法去验证去实验,AI也是一样,经得起这些测试我认为就是可信的。多是结果说话,本身是如何得出来的如果有可解释性固然好,如果没有,结果经得起实践也是值得肯定的。
付绍静认为,现实中很多AI模型尤其是深度学习模型的结果不可解释的。目前的AI模型其实主要是做感知,认知和决策都很受限,也不能推理和给出因果关系。例如,基于AI研发的新药,究竟是基于何种机理得到的?我们如何能够信任其安全性?出现了问题谁来负责?所以这里面又涉及到AI伦理的问题。因此AI 只能作为科学规律发现的辅助,真正科学规律的发现还是要靠人。
满君丰认为,当前的AI确实存在上述问题,但是AI技术本身也在快速发展中,可解释的AI和物理机理引导的AI正是当前的研究热点,并且取得了一定的成果。相信未来可以实现更加可解释的AI模型,从而产生出更加可信的科学发现结果和计算结果。
陈景润认为,虽然当前一些AI方法还是“黑箱”操作,可解释和通用性不强,但是随着AI和科学领域知识更多地结合,方法的可解释性、鲁棒性等会越来越强,相信可以在未来获得更多科研领域研究人员的信赖。
针对思辨二,鄂维南院士认为AI和Science都很重要。但是当前的AI还存在比较严重的问题,就是难以体现一般性的科学规律,也难以融合常识。因此我们设计AI模型时需要更加关心模型背后的基本科学原理。AI的可靠性验证和其他科学研究的验证方法一样,就是结果可复现。理论研究给出的规律和结果以及AI给出的规律和结果,都应该用这同一种方法去验证。
此次论坛历时四小时,论坛执行主席王森章博士和杨超博士对本次论坛进行了总结。此次论坛探讨了人工智能如何助力科学计算与发现、技术与应用、未来趋势与发展方向,相信可以为相关领域从业人员提供重要的参考与借鉴。 YOCSEF长沙分论坛主席杨超对本次论坛的组织方中国计算机学会,论坛的承办方YOCSEF长沙分论坛、湖南大学信息科学与工程学院及论坛的协办方中南大学计算机学院、湖南第一师范学院、线上所有嘉宾和参会者表示感谢。最后,全体参与嘉宾进行云合影,论坛圆满结束。
图10 部分与会嘉宾云合影