2019年8月25日,YOCSEF广州分论坛、深圳分论坛在广州大学城中山大学数据科学与计算机学院成功举办了大湾区IT创新论坛“深度学习时代计算机视觉研究—颠覆还是泡沫?”。本次论坛由YOCSEF广州AC委员、中山大学李冠彬博士,YOCSEF深圳副主席、AC委员、深圳大学陈小军博士共同担任执行主席。广州分论坛前主席谭台哲博士,广州分论坛现主席郝天永博士深度参与。论坛共吸引了来自吉林大学,成都信息工程大学、中山大学、香港中文大学(深圳)、华南理工大学、广东工业大学、华南农业大学、深圳大学、广东技术师范大学、香港大学等高校以及多家知名IT企业共40多人参加,暗物智能科技有限公司提供了活动赞助。
论坛分为引导报告和讨论争鸣两个环节。引导报告由陈小军博士主持。香港中文大学(深圳)韩晓光博士以“采用何种面向深度网络的特征表达对于三维重建性能最佳”为题,介绍了基于深度学习的三维表示及三维重建方法,并介绍了最新的结合骨架点云、体素表达和三维网格的三维重建技术。华南理工大学何盛烽博士以“像素级图像理解与编辑”为题,阐述了最新基于非线性成像模型的图像反光去除技术,介绍了最小化用户交互与标记及基于主动学习的图像前背景分离技术。香港城市大学廖菁博士以“基于深度学习的图像和视频的风格化”为题,介绍了基于全局与局部相似性的单张图像风格化技术,阐述了结合几何形变和艺术家笔刷的图像视频风格化技术,展望了未来借助深度学习与人工智能更好地辅助艺术家与设计师的创作。广州图普网络科技有限公司产品总监黄雅以“如何用人工智能建立零售行业影响力”为题,分享了人工智能深度学习技术在产业落地的应用现状,介绍了公司如何利用深度学习技术帮助品牌回归零售初衷,以消费者体验为中心用数据驱动泛零售形态。
进而论坛围绕“深度学习时代计算机视觉研究—颠覆还是泡沫?”展开多个议题的讨论争鸣,由李冠彬博士主持,与会人士针对“深度学习在计算机视觉领域应用的瓶颈在哪里?”、“计算机视觉是否沦为机器学习在技术层面应用的实验田?”、“基于公开数据集的视觉研究算法实验,是公正的性能对比还是导致算法局限性的诱因?”等三个议题进行了讨论。
争鸣议题一:深度学习在计算机视觉领域应用的瓶颈在哪里? 突破瓶颈后,是新技术替代还是自我演化增强?(衍生议题:深度学习在哪些视觉问题上不如传统方法?是条件不足还是自身瓶颈?)
韩晓光博士表示,三维视觉主要包括三维模型生成与分析两大类。如何选择三维表示,以及定义三维表示上的卷积运算,目前存在很多不确定性,处于百家争鸣的局面。何盛烽博士借鉴约翰霍普金斯大学教授Alan Yuille的观点认为,深度学习的瓶颈之一在于需要大量数据,目前有基于循环损失的生成对抗网络、无监督学习、元学习来处理该瓶颈,相信可通过自我演化来逐步解决;瓶颈之二在于过拟合,目前也有学者进行针对真实场景和数据的深度学习研究;瓶颈之三在于深度学习易受对抗样本工具,目前清华大学朱军团队做了很多这方面的工作。李冠彬博士认为,在动作识别和理解中,基于物体和场景外观的深度学习模型难以理解抽象的涉及常识及认知推理的复杂高层行为语义;他举例了其研究的显著物体检测领域中,深度学习模型过度依赖和记忆数据集中的语义特征和物体类别,忽视了对比度建模,这是数据集构建时产生的偏差所导致的。郝天永提出瓶颈有技术和应用两个方面,应用环境的瓶颈比如医学图像准确率达到很高指标后,由于伦理和法律因素都未必能得到应用,落地应用的瓶颈值得注意。廖菁博士认为,人工智能衍生出许多引入深思的法律和伦理问题,比如机器临摹的画作版权归谁所有?很多deepfake换脸技术的产品就被归属为违法研究,许多研究可能在将来遇到法律的瓶颈。成都AC委员张永清表示,深度学习的不可解释性成为其在医疗领域落地的瓶颈,其发展也有愈加复杂的趋势,简单地解决问题将更有利于模型的可解释性和落地。谭台哲博士表示,人类可同时结合音频、图像、语言等多模态信息,高效地行动决策,而深度学习面临小样本及多模态融合的问题。
争鸣议题二:计算机视觉是否沦为机器学习在技术层面应用的实验田?(衍生议题:NIPS、ICML是否比CVPR更好?)
李冠彬博士提出议题,高校学者是否应该专注于机器学习模型,而将计算机视觉这类应用问题留给工业界。韩晓光博士表示,计算机视觉领域有许多实际的困难问题,值得学者去解决。机器学习是工具,而对实际问题的研究能反向推动工具的发展。廖菁博士不同意某个会议或子领域比其它的更重要,领域可分为理论和应用、上游和下游,两者都很重要。何盛烽博士表示,不应该说“沦为”,应该说计算机视觉很荣幸成为机器学习的试验田。郝天永博士表示赞同是试验田观点,如现在医学图像等多个领域都是深度学习的实验田,但关键是要让其结出丰硕的成果。吴一冰表示,人工智能在某些行业可以解决问题,但在某些行业可能存在客观的性能上界。目前计算机是基于也受制于传统的图灵机模型。计算机或机器学习能够解决的问题,目前只占据各行各业的一小部分。陈小军表示,不能说沦为试验田,深度学习在计算机视觉应用较广,但在自然语义处理领域的语义理解中,则较难进展。图像处理领域的会议与机器学习领域的会议各有侧重,如CVPR更强调应用,而ICML、NIPS更加偏重理论研究,各有千秋。
争鸣议题三:基于公开数据集的视觉研究算法实验,是公正的性能对比还是导致算法局限性的诱因?(衍生议题:视觉领域的研究大规模爆发,如何慧眼识文章?)
李冠彬博士抛砖引玉,目前不少在学术界性能领先的方法,在工业界中的应用并不成功。韩晓光博士表示,在其早期进行图形学研究时,由于三维数据较二维数据更难获取,图形学界也没有形成公开数据集的风气,更关注用户调研结果。而在目前计算机视觉研究中,使用公开数据集比较已成一种范式。有时一个课题在早期研究阶段,可能由于数据集质量低而发展受阻。韩博士还认为,学术界没有义务提供可供工业界运用的模型和数据,学者更关注验证自己的方法、模型和创新。工业界应该根据自己的需求制定相应的数据集和方法。廖菁博士表示,虽然图像增强领域有公开数据集也产生了大量论文,但其与电影公司合作去噪课题时,发现很多学术界指标领先的算法并不实用。而在基于人工智能的艺术创作方向中,由于缺少公开数据集和评价指标,算法间的比较难以公平进行,一定程度上影响了该方向发展。黄雅提出,工业界积累了大量的经过落地验证的真实人脸数据,这类数据有机会反哺学术界,但此类数据在法律上很敏感,未来学术界与工业界有望在此方面合作。何盛烽博士提出,已有研究论文表明,人为设计的数据集总是存在数据偏差,目前很多学术论文也在利用公开数据集偏差以提升性能表现,使之得以发表。中山大学陈冠锜同学认为,在文献调研时,首先关注各大顶会的最佳论文,其次阅读文章的贡献点及框架图。如果通过框架图可快速掌握其内容,或发现其与前人工作很相似,则选择跳过此类文章。高月芳博士认为她挑选论文时更关注于有开源代码的论文。黄栋博士认为,视觉文章大爆发是因为成果的大爆发,论文的可复现性、公开的源码和数据集会成为未来文章接受的重要因素。
参与讨论的人员各持观点,从不同角度进行激烈辨析,碰撞出很多思想的火花。与会者认同深度学习强大的特征学习能力确实给当前计算机视觉领域研究带来了巨大的促进,也推动了视觉技术在产业的大规模落地应用,但也不可避免地存在以论文数量和利益驱动的“快餐式”研究,作为领域的研究者应该时刻保持严谨的态度,紧跟前沿开拓创新,扎实推动计算机视觉领域的突破性进展。会后大家意犹未尽地继续和部分嘉宾与主持人进行讨论,本次广深联合大湾区IT创新论坛取得圆满成功。