随着人工智能技术的飞速发展,AI在科学研究中的核心地位日益凸显。2024年,诺贝尔物理学奖和化学奖的颁发,更是标志着AI在科学研究中的重要地位。在这样的背景下,CCF YOCSEF哈尔滨于2024年10月20日在东北林业大学成栋楼1014会议室举办了“大模型遇上生命科学,能否重构生命科学界的底层逻辑?”技术论坛,由YOCSEF哈尔滨主席李洋、YOCSEF哈尔滨学术秘书张春龙共同担任执行主席。YOCSEF哈尔滨现任副主席张晓光、李元鹏、王勇,以及AC委员冯兴宇、路贝、杨海陆、赵佳音、玄世昌、丁小欧、戴百生等参加了此次活动。
图1 YOCSEF哈尔滨学术秘书张春龙主持论坛
论坛特邀吉林大学教授李向涛、沙特阿卜杜拉国王科技大学教授高欣、哈尔滨工业大学副教授赵森栋进行引导发言,特邀东北林业大学教授汪国华、YOCSEF哈尔滨分论坛前任AC黑龙江大学教授马吉权、YOCSEF长春分论坛现任AC东北师范大学副教授王晗、哈尔滨工业大学副研究员宋枭禹、哈尔滨工业大学助理教授朱庆福进行思辨引导。论坛还有来自哈尔滨工业大学、哈尔滨工程大学、东北林业大学、哈尔滨医科大学、黑龙江大学、哈尔滨理工大学、齐齐哈尔大学、哈尔滨光线科技、大庆师范学院等来自学术界和企业界的共80余位嘉宾参与论坛。
在引导发言环节,三位嘉宾介绍了自己在生命科学大模型领域的研究成果。首先进行引导发言的是吉林大学教授李向涛。他的报告题目为单细胞组学数据分析与理解,介绍了几种新型深度图学习方法,用于单细胞数据的分析,为揭示生物系统的复杂性提供了强有力的工具。
图2 李向涛进行引导发言
第二位引导发言者是沙特阿卜杜拉国王科技大学教授高欣。报告题目为《生物医药中的大语言模型》,展示了如何开发类似ChatGPT的框架来解决生物医学中的开放问题,介绍了在预测SARS-COV-2病毒演变、设计抗体等方面的工作。
图3 高欣进行引导发言
第三位引导发言者是哈尔滨工业大学计算学部副教授赵森栋,报告题目为《自然语言处理与智慧医疗》,介绍了自然语言处理技术在医学领域的应用,特别是大语言模型技术在解决医学领域的挑战中的应用前景和最新的成果。
图4 赵森栋进行引导发言
在思辨环节,五位思辨引导嘉宾与参会者共同探讨了三个思辨议题。嘉宾们对AI技术如何预测生物系统的复杂行为、数据保护如何影响模型的训练、如何确保大模型在生命科学中的可靠性进行了深入讨论。抢麦现象屡见不鲜,各位嘉宾思想不断碰撞,启发不断,收获良多。
思辨议题一:大模型能否揭示生命科学中未被发现的模式和规律,进而准确预测生物系统的复杂行为?汪国华提出,大模型具备强大能力,但性能依赖于数据量和数据质量。王晗认为,生物医药领域的大模型应向专业化扩展,通用大模型具备揭示生命规律的能力,但模态单一,无法覆盖和表征生物医药领域的全部知识。其他与会嘉宾也就该问题进行了热烈的思辨。最终嘉宾们输出观点如下:
1、大模型能够揭示新的模式和规律,但其性能依赖于数据的量和质,且当前发展还处于初级阶段。
2、大模型在专业化领域如单细胞分析中面临挑战,需要特定结构的模型来提取特征。
3、大模型可能难以发现偶发的规律事件,但数据量的充足有助于揭示不确定性中的确定性规律。
4、大模型的可解释性对于理解其发现的模式和规律至关重要,且随着技术发展将逐步提升。
图5 思辨嘉宾进行思辨引导发言
图6 思辨议题一的讨论
思辨议题二:大模型需要大数据的支撑,生命科学领域对于数据保护格外慎重,是否对大模型的训练带来挑战?李向涛指出,医学领域数据存在隐私、分散、多样、异构等问题,对构造跨医学领域大模型构成很大挑战。朱庆福认为,数据对生命科学大模型的训练构成挑战,但这些挑战可以采用技术手段应对。其他与会嘉宾也就该问题进行了热烈的思辨。最终嘉宾们输出观点如下:
1、数据隐私和分散性对大模型训练构成挑战,特别是在预训练阶段。
2、数据保护和隐私要求可以通过技术手段处理,如分布式学习和隐私保护算法。
3、数据交易市场的推进可能缓解数据获取难题,但数据归属分散可能对大模型训练构成挑战。
4、需要国家层面的制度规范来支持大模型在数据保护要求严格领域中的训练和应用。
图7 思辨嘉宾进行思辨引导发言
图8 思辨议题二的讨论
思辨议题三:如何确保大模型在生命科学中的决策过程是可解释和可信任的?马吉权提出,可解释性是深度学习领域最为关心的问题之一,随着技术发展,大模型的解释提供了路径。宋枭禹认为,模型的解释是可以实现的,但当前的生命科学大模型仅处于初级阶段。其他与会嘉宾也就该问题进行了热烈的思辨。最终嘉宾们输出观点如下:
1、模型的可解释性是关键,技术发展已为大模型的解释提供了路径,但仍需多学科融合的知识。
2、模型的有效性和可用性比单纯的统计正确性更为重要,应关注个体案例的正确性。
3、理论往往滞后于实践,大模型的开发应实践先行,关注可用性的验证。
4、绝对的可解释性并非绝对重要的关注焦点,应更关注决策过程的正确性和可信性。
图9 思辨嘉宾进行思辨引导发言
图10 思辨议题三的讨论
最后,YOCSEF哈尔滨分论坛副主席张晓光对论坛作总结与展望。他认为本次技术论坛选题方向比较前沿,对生命科学领域和人工智能领域都是一个比较新颖的选题,大家分享了最前沿的科研成果,并对一些关键问题进行了深度探讨。在当前的智能化时代,无论是工业界还是学术界都需要加强讨论、互相支持合作。这次的论坛我们做了充分探讨,也让参会者们对生命科学大模型的未来发展前景和研究方向有了更多的思考和理解。
图11 论坛总结
通过这次论坛,参会者们对大模型在生命科学中的应用潜力、面临的挑战、伦理和社会影响有了更深入的理解。论坛的成功举行,为未来的研究和合作奠定了坚实的基础,也为生命科学大模型的未来发展提供了宝贵的思路和方向。
图12 合影留念