人工智能理论关键理论与应用 - 其他活动

YOCSEF武汉主题活动“人工智能理论关键理论与应用”

2021年11月17日，YOCSEF武汉在华中师范大学南湖综合楼举行了主题为“人工智能理论关键理论与应用”的活动。本次活动由YOCSEF武汉主席胡威组织并主持，YOCSEF武汉AC委员、武汉理工大学李琳教授，YOCSEF武汉通讯AC、中国地质大学孙琨副教授担任讲者，为华中师范大学的同学们奉献了一场学术与技术的饕餮盛宴。

首先由胡威为参会者做了YOCSEF的介绍。他从CCF开始，简要介绍了CCF的发展概况，然后介绍了YOCSEF的理念、活动组织形式和整体情况，接着对YOCSEF武汉的建立、发展、现状等进行了介绍，最后向各位参会者介绍了CCF会员和学生会员的权益。

第一场技术分享由李琳教授带来。李老师首先阐明了当下互联网信息呈现形式变得越来越多样化的现状：包括文字、语音、图像与视频在内的多模态信息之间的共生与共现变得越来越频繁。这使得多模态数据分析业已成为近年来学术界研究的焦点，并在智能推荐、信息检索、广告推送等工业界关注的热点领域产生了广泛的应用。

在讲座中李老师用深入浅出的语言为大家介绍了什么是多模态数据、多模态数据分析目前所面临的核心技术挑战以及如何将机器学习的方法应用于多模态数据分析中。

何为模态？李老师将模态定义为某事件发生或经历的方式，通常指特定种类的信息及其表现形式。通俗而言，一种形式的信息就是一种模态。常见的模态来源包括自然语言、视觉、听觉、触觉、嗅觉与味觉、电生理信号等等。

李老师介绍，目前多模态信息处理所面临的核心技术挑战主要包括五点：多模态表示（Representation）、对齐（Alignment）、协同学习（Co-learning）、融合（Fusion）以及模态转换（Translation）。

多模态表示是指如何利用多模态数据之间的互补性来剔除模态之间的冗余性，以得到更优越的特征表示，主要有联合表示（Joint Representations）和协同表示（Coordinated Representations）两大研究方向。
多模态对齐的目的是从不同模态的信息中，识别出来自同一实例不同形式的元素之间的直接联系，例如将一张图片中的某范围同描述这张图片的短句中的词组建立起映射关系。
协同学习是指在不同模态之间来迁移知识，利用某些资料丰富、信息充足的模态信息，去帮助其它资料缺乏、信息贫瘠的模态来进行学习。
融合则是联合多个模态的信息以执行目标预测，它是多模态机器学习最早的研究方向之一，目前应用广泛。
模态转换是将数据从一种模态转换为另一种模态，转换关系通常具有开放性和主观性。

之后，李老师着重介绍了其课题组的近期研究进展。在课题组发表于ICMR2020的一篇论文中，作者指出食谱中连续句子的顺序和食物图像中的噪声会影响检索结果，并在此基础上提出了一个新的交叉检索框架。在该框架下，课题组提出了三种新策略来提升检索准确率：第一，对食谱的标题、配料和说明在语句层面进行编码，并分别采用三个注意力网络（Attention Networks）来处理它们，从而捕获更多的语义信息。第二，设计了一种新的对抗性损失来增强模态对齐并改进三元组损失函数（Triplet Loss），以减少噪声的影响。第三，应用注意力机制，结合食谱嵌入的食物图像中选择有效特征，并采用对抗性学习策略来增强模态对齐。实验表明，提出的新框架在中位数排名和召回率方面显著优于原有算法。除本文外，李老师还介绍了课题组在2021年在该领域的最新研究成果。

在分享过程中，与会同学认真学习并积极参与互动，李老师对同学们的疑问一一做出回答。最后，李老师总结道，目前多模态表示和模态转换已经吸引了越来越多研究者的目光，对这些领域的研究已经并将继续产生大量新的多模态算法和多模态应用。对多模态机器学习的研究，将有助于打破各个领域之间的隔阂，推动共同进步。

第二场技术分享由孙琨副教授带来。孙老师专注于计算机视觉领域，本次分享为我们介绍了多视图特征匹配方法的相关研究与应用。

多视图特征点匹配是指从多个视角拍摄同一客体，将客体中的比较鲜明的特征点在多个图片中进行匹配。图像特征匹配是三维计算机视觉领域的基础性课题，目前已经有很多传统方法来实现这一目标，包括目标追踪（Object tracking）、光流法（Optical flow）、单应性变换（Homography）、对积几何（Epipolar geometry）等等。但迄今为止，仍有许多挑战未能完美解决。对于图片中可能存在的曝光不足、视角偏移、遮蔽、图像旋转、重复模式、图像缩放等情况，仍然有待进一步研究。

孙老师随后介绍了课题组近年来在该领域的主要工作：课题组提出了两种方法来实现多视图特征点匹配，分别为HGMM方法（Hybrid Gaussian Mixture Model）和C2F方法（Cycle Consistency Fusion of Multiple Descriptors）。

HGMM方法使用一组“种子对应”（Seed Correspondences）来指导匹配过程。为了自动寻找种子对应，特征点根据它们的匹配潜力被分为多层。如果在高层中匹配到了大量异常值，则用包含更少异常值的低层中的对应关系作为硬约束。实验结果表明，如果图片之间的视角差异较大、或重叠范围较小时，HGMM方法具有更好的鲁棒性。

C2F方法则可用于匹配具有多个描述符（Descriptor）的图像。课题组注意到，不同描述符的性能会因图像而异，而不同描述符之间的互补信息也常常被忽略。C2F方法显著提高了原始匹配以及几个下游任务的准确性。

在两位嘉宾分享后，同学们为二位的精彩报告致以了热烈的掌声，主题活动在同学们的讨论声中结束。会后，同学们普遍反应在本次学术分享中获益良多，并希望以后可以继续组织此类活动，拓宽大家的学术视野。

CCF YOCSEF 新闻动态CCF Young Computer Scientists & Engineers Forum