2023年8月26日,YOCSEF深圳举办“大模型前沿技术与发展趋势”研讨会。此次论坛将聚焦大模型前沿关键技术,展望大模型和大数据的发展趋势,让与会嘉宾从不同角度讨论思辨,尝试在大模型未来发展领域探寻一些方向。本次会议是YOCSEF 深圳聚焦大湾区,启动"Wiztalk·湾区会议"特别品牌活动的第二期,由YOCSEF深圳2020-2021主席陈小军和现任AC寇立言作为执行主席组织。
陈小军主持
会议伊始,陈小军向来自香港高校和企业界的嘉宾们简要介绍了CCF YOCSEF的文化,包含了YOCSEF的含义、创办目的,YOCSEF组成、定位、论坛规则等内容,以及《Witalk·湾区会议》系列活动的定位。他也介绍了本次活动的报告嘉宾,包括深圳大学特聘教授黄哲学、深圳大学大数据系统计算技术国家工程实验室副主任沈琳琳、香港科技大学(广州)信息枢纽终生教授王炜、中山大学(深圳)副教授/国家级青年人才梁小丹、香港中文大学的孔秋强等。2023年初,OpenAI发布ChatGPT后火爆全网,然后各大公司及开源社区争先恐后推出了各种大模型,目前正在上演“千模大战”。尽管大模型取得了突破性的进展,但仍然需要清醒地认识到,大模型在理论及落地上还有许多问题要解决。陈小军表示,本次活动的目的是探讨大模型的前沿技术及未来的发展趋势,以及与大数据技术的深度结合,希望通过本次讨论能形成若干有意义的共识,使相关领域从业人员收益。
袁春和金一致词
YOCSEF深圳2013-2014主席、CCF深圳监委、清华大学深圳研究生院教授袁春,以及YOCSEF总部AC、北京交通大学教授金一首先做了致辞。两人表示,本次活动活动准备充分,所邀请的嘉宾与主题非常匹配,相信活动能取得圆满成功。同时,也期待系列论坛能够推动粤港澳大湾区更多更深入的交流。
本次活动分为两个专题,大模型专题及大数据专题。
Part 1,大模型专题:
首先,深圳大学大数据系统计算技术国家工程实验室副主任沈琳琳以《AIGC之伶荔中文大语言模型》为题,介绍了自研的TencentPretrain 框架,以及基于此框架对 LLaMA微调得到的伶荔大模型。目前伶荔大模型开源获得了2700+ GitHub Stars,有1000+的活跃用户,已经在包括金融、人脸检测、医疗及数字人等领域获得了应用。
然后,来自中山大学·深圳的梁小丹做了《多模态开放域检测大模型及应用》报告,介绍了团队在语言-视觉大模型方面的工作,并将其用于机器人导航上取得了不错的效果。她也表示,由于多模态之间的语义鸿沟与导航的动态性,实现精准的多模态语义对齐存在巨大的挑战。
接下来,来自香港中文大学电子工程系的助理教授孔秋强以《大语言模型在音频信号处理中的应用与展望》为题介绍了音频信号处理的经典任务,探讨了大模型时代音频信号处理的新数据集、新模型、新任务,以及音频领域的理解和生成任务的难点。
最后,陈小军及金一主持了大模型专题的思辨环节,就大模型演进及落地的技术路径进行了深入探讨。
首先探讨了大模型的技术架构问题。在讨论开始前,来自哈尔滨工业大学(深圳)的副教授户保田介绍了提出的一种用于大型语言模型的交互式感知网络LMEye,通过允许大语言模型结合与人类指令一致的视觉信息来进行动态交互,并在多模态问答和推理任务上显著提高了大语言模型在多模态任务上的零样本性能。针对大模型的技术架构问题,讨论了两个子问题。1)尽管目前常用的Transformer架构具有计算高效、上下文感知等优点,但也存在如训练数据量要求高、可解释差、学习长距离依赖关系的能力有限及推理速度慢等缺点。所以,未来是沿用现有的Transformer架构还是探索新的架构?针对此问题,王炜表示,现有的大模型技术架构难以处理复杂的问题,在基础理论及计算成本等方面都存在较大的问题,需要探索新的架构才能更好地适应实际应用的需求。孔秋强表示目前的Transformer难以处理音频数据中的长序列问题,亟需更好的技术架构。幂商科技余冰表示,在工业界,现有架构最大的问题是推理速度慢,非常影响使用效率。他介绍了MSRA最新提出的一个大模型新架构RetNet,其在训练及推理时能极大地节省内存并缩短计算时间。袁春表示,基于现有的技术架构,可以使用量化、剪枝及蒸馏等方法来加快大模型的推理速度。针对多模态大模型架构,户保田表示,利用多模态数据从零开始学习多模态大模型比较困难,目前更实用的方式是利用已有的大语言模型来对视觉信息进行对齐。北京大学深圳研究生院信息工程学院助理教授袁粒表示,目前有很多学者在探索新的技术架构,但另外一方面,训练数据及指令数据的质量对大模型的性能影响更加重要,也需要关注。深圳大学特聘教授黄哲学表示,要结合经典的统计学习来改进现有的大模型技术,同时训练数据的清洗也非常重要。2)针对领域大模型,就目前而言,从头开始训练一个大模型对很多企业来说不大实际,所以大都利用已有的大语言模型进行微调。但目前利用大语言模型微调的多模态大模型性能有限,所以需要探索新的路径。针对该问题,余冰表示,通用大模型需要和行业知识图谱进行结合,利用行业知识图谱来对大模型进行微调。梁小丹表示某些实际应用需要大模型有自我纠正的能力,需要大模型能即使发现错误并对错误进行修正。北京交通大学教授魏云超介绍了自己在交通领域的一些经验,他表示微调的效果有限,反而是利用大模型+知识库的方式更加有效。同时也需要结合连续学习的方式来对大模型的知识进行更新,其中的难点是如何对特定的知识进行遗忘。
然后探讨了大模型落地的技术架构问题。在讨论开始前,微众银行范涛介绍了团队在联邦大模型方面的一些探索。联邦大模型的初衷是解决用户的算力不足,数据不足及数据隐私问题。在实际的应用中,可以将联邦大模型分为同构联邦大模型、异构联邦大模型、大模型指导小模型联邦及大模型和数据的联邦。针对大模型落地的技术架构问题,主要关注点是如何在实际应用场景中构建适配应用场景的大模型体系?具体讨论了两个子问题。1)在实际应用场景中,是应该选择大模型、小模型组合还是大小模型协同?孔秋强表示,在工业界的很多应用如语音识别,更乐意采用小模型组合的方式,这样当业务变化的时候,只需要更新对应的小模型即可。但余冰表示,语音任务最好的是训练一个通用的大模型,然后再此基础上去增加对其他语言的支持。户保田提出了一种新的思路,即利用多个各有所长的小模型辩论的方式去解决传统需要大模型才能解决的一些复杂问题。魏云超和袁春都表示,在视觉任务上大模型是一种趋势。例如这种通用的分割模型SAM可以让视觉任务的上限提升,而针对各种任务的小模型可以让视觉百花齐放。梁小丹表示目前由于基础的视觉模型能力的增强,机器人的模型体系已经从端到端优化变为固定一些模型来优化其他模型。2)大小模型如何协同进化?袁春表示,在很多实际应用场景如自动驾驶场景,感知和决策是两个系统,而其中决策是非常困难的,目前很难用端到端的方式来做,需要多个模型进行有效地协作。梁小丹建议可以将小模型作为agent,通过类似ToolTransformer的方法来训练大模型调用小模型以协同进化,同时也需要考虑大小模型之间的合作及竞争等关系。
一上午大家全情投入,讨论非常激烈,初步达成了如下的共识:目前Transformer存在推理速度慢等问题,需要探索新的架构。同时,也需要关注训练数据的质量。针对领域大模型,通用大模型+行业知识图谱是一个很重要的方向,同时也需要结合连续学习的方式来对大模型的知识进行持续更新。
Part 2,大数据专题:
经过中午的短暂休息,下午迎来两个重量级的嘉宾分享和激烈的思辨。
首先,深圳大学大数据所长黄哲学以《非MapReduce大数据计算》为题,介绍了与传统的全量数据计算不一样的技术,即通过对数据进行打乱抽样,在少量随机样本而不是全量数据上进行分析,可以获得非常高的性能加速并极大地降低大数据的处理成本。
然后,香港科技大学(广州)信息枢纽终生教授王炜以《Towards Understanding the "Intelligence" of Large Language Models》为题探讨了大语言模型的智能涌现机制、局限性,并指出了一些大语言模型未来重要的研究问题,如大语言模型的机制及更多的能力、快速知识更新等。
陈小军及金一共同主持了大数据专题的思辨环节,就大模型和大数据技术如何深度结合进行了深入的讨论。
首先探讨了大模型对数据的需求问题。在讨论开始前,来自深圳数据交易所生态发展部业务主管王吴越介绍了当前大模型面临的训练数据痛点,以及利用数据交易来有效支撑企业大模型训练的方案及实际案例。针对大模型的训练数据缺乏问题,余冰表示可以利用种子数据来合成所需的数据,特别是模拟一些罕见场景下的长尾数据。深圳大学副教授吴晓晓表示数据集要考虑公平问题,以避免将数据中存在的偏见引入到大模型中,同时也需要考虑大模型的价值观问题。王吴越表示数据隐私问题可以通过一次授权、多次使用来解决数据多次授权的效率问题,同时可以利用可信数据空间来训练大模型及解决数据隐私问题。黄哲学表示,大模型训练数据的清洗成本比较高,可以将大数据划分后进行清洗以节省成本;同时,大数据的冗余性比较高,需要利用统计技术对数据去冗余后以降低大模型的构造开销。王炜也提出在实际应用中,可以考虑对数据进行压缩后来训练大模型;同时,如何评估数据对自身的价值以制定合适的价格也是个很重要的问题。袁春提出可以用元学习的方法来解决大模型数据缺乏的问题,并且项目组在这个方向上已经取得了不错的效果。
然后讨论了大模型时代,大数据技术的发展趋势。在讨论开始前,香港大学助理教授黄超介绍了在基于大模型的推荐技术方面的一些工作,包括用大语言模型来做数据增强,以及生成式推荐等。针对大模型技术的大数据技术,王炜表示25年数据库领域的学者就有一个愿景,希望能实现对多种数据的管理,现在可以尝试用大模型来解决大规模/多模态数据的数据质量及数据管理问题;同时,大模型可以把各行各业显示及隐式的知识提取并管理起来,以方便后续的使用。袁春表示目前随着大语言模型的发展,我们以及可以做到将很多的知识用文本的方式描述出来,方便人们的理解;但同时也我们也需要去思考哪些问题目前做不了或做不好。黄哲学表示不能把大模型当成是万能的,要对大模型的输出做好评估及控制以避免可能导致的严重后果。余冰表示在工业大数据领域,可以考虑用大模型来找到安全数据的边界,以避免在极端情况下由于数据扰动影响模型的输出并导致严重的后果。香港生产力促进局高级研究员成杰峰表示,看好大模型和大数据管理技术的深度结合。
经过一下午的讨论,大家初步达成了如下的共识:数据交易可以解决大模型的数据问题,同时数据压缩、数据合成及元学习也是有效的解决训练数据不足的技术手段。同时,利用大模型来提升大数据清洗、管理、检索、推荐是大模型时代大数据技术的重要发展趋势。
关于Wiztalk·湾区会议
“Wiztalk·湾区会议”是CCF YOCSEF深圳经过十五年积累,沉淀、凝练和持续发展而形成的大湾区青年精英学术交流品牌,旨在打造“高、专、精”的学术交流与研讨平台,帮助专业人员提升影响力,促进政产学研合作,助力湾区科技发展,发挥深圳特区示范作用。每期研讨会将定向邀请一线科技专家,以闭门会议的形式,针对某一具体基础/前沿技术进行深度启发式研讨。会议由YOCSEF深圳老主席和现任AC联合组织,为更好地传播基础/前言技术,研讨会学术报告部分将酌情直播。
关于CCF YOCSFE深圳
中国计算机学会(CCF)青年计算机科技论坛(Young Computer Scientists & Engineers Forum,YOCSEF)是CCF于1998年创建的系列学术活动。CCF YOCSEF以“承担社会责任、提升成员能力”为宗旨,由来自全国有激情、有思想并富有社会责任感的学者、企业家和其他各界青年精英参与策划、组织,是CCF最具活力的部分。CCF YOCSEF当前的主要活动形式是观点论坛、技术论坛,此外还有学术评价、评奖、教育振兴和Club等活动。
YOCSEF深圳成立于2009年,目前已经走过十三年,是深圳计算机领域最活跃的青年学者组织,聚集了一批自信、活力、敢于创新、有抱负、有能力的青年精英,每年组织至少二十多场各类活动。紧密结合深圳和大湾区科技、学术与产业特点,对科技、人才和社会等热点问题展开深入研究,通过思辨与讨论方式厘清问题本质,为深圳和大湾区发展提供智库支持,并辐射全国。
CCF YOCSEF 深圳期待您的加入。
加入联系人:张伟鹏(13760278278,微信同号)
赞助联系人:寇立言(19539141187,微信同号)