2023年10月22日,YOCSEF深圳在深圳大学举办"Wiztalk·湾区会议"特别品牌活动第三期“数据管理前沿与趋势”研讨会。此次会议主要聚焦数据管理前沿关键技术,探讨和展望数据库和大数据的发展趋势,让与会嘉宾从不同角度进行深入讨论和思辨,尝试探寻数据管理领域未来的发展方向。"Wiztalk·湾区会议"是YOCSEF 深圳经过十五年的发展、积累和沉淀而形成的学术交流品牌,旨在聚焦大湾区,为大湾区青年精英打造一个“高、专、精”的学术交流与研讨平台。
本期的研讨会由YOCSEF深圳2016-2017主席\荣誉AC毛睿和现任AC秦建斌作为执行主席组织。会议伊始,秦建斌作为主持人向来自大湾区学术界和企业界的嘉宾们简述了CCF YOCSEF的文化背景。他介绍了YOCSEF的含义、成立宗旨、组织构成、功能定位、发展历程和论坛规则等相关信息,并分享了“Wiztalk·湾区会议”活动的创办理念和年度策划。他还介绍了参加本次活动的报告嘉宾和研讨嘉宾,包括中国科学院深圳理工大学计算机学院讲席教授李建中,香港科技大学计算机科学与工程系副主任黄智荣,华东师范大学数据科学与工程学院讲席教授/国家级领军人才杨彬,腾讯云数据库专家工程师唐彦等。
深圳大学特聘教授毛睿为研讨会致开幕辞,对参会嘉宾表示热烈欢迎和诚挚感谢,期待论坛能够促进深入交流、碰撞出思想的火花。
本次的研讨会分为引导报告环节和思辨环节。在第一个环节,四位引导嘉宾从“理论、研究、技术、应用”等角度为我们带来了精彩的引导报告。
首先,引导嘉宾中国科学院深圳理工大学计算机学院讲席教授李建中以《计算资源受限的大数据计算的复杂性理论》为题,介绍了大数据计算的概念和三个重大的挑战。针对大数据计算的复杂性问题,李建中详细介绍了最新的理论研究进展,如精准描述大数据计算的新计算模型、大数据计算问题的分类和问题空间的复杂性拓扑结构等。
随后,来自腾讯云的数据库专家工程师唐彦博士带来了题为《云时代下打造分布式数据库的可调度能力体系的思考》的报告,介绍了当前云数据库的市场情况以及发展趋势,并详细介绍了腾讯自研的分布式数据库系统TDSQL的总体架构、关键特点,以及可调度能力体系面临的新挑战和应对的新思路。
稍事休息之后,香港科技大学计算机科学与工程系教授黄智荣以《Big Data Analytics on Big Spatial Database》为题,介绍了空间地理应用及其中存在的问题,如临近信息查询、空间众包、最短路径、轨迹追踪等问题,并着重讲述了时空数据中窗口路径计数问题的最新研究成果。
最后,华东师范大学数据科学与工程学院讲席教授杨彬以《自动化时间序列分析》为题,介绍了时间序列分析和预测问题,并提出了两个自动化构建和调优的时间序列模型生成框架,大大解放了原本由人工设计架构和调优的时间序列分析流程。
研讨会的思辨环节由YOCSEF深圳AC邱宇轩主持,就未来大规模数据处理策略和人工智能的发展对数据库、数据处理领域的影响和启发进行了探讨。
首先探讨了大规模数据的处理策略问题。随着数据规模不断扩大,往往超出计算资源的承载能力,于是在计算资源受限的情况下, 如何确保大数据分析的质量和速度不会受到过多的影响?针对此问题,李建中表示,在解决大数据问题的复杂性分析后,最关键的还是要依赖算法层面的发展,目前针对大数据分析在算法层面还没有太多好的算法,未来还需要探索更多新的方法如主数据法、增量式算法、分布式并行算法等。深圳大学计算机与软件学院副教授陈梓楠表示,在数据量不是特别大,如只有TB级别的时候,部分问题的计算复杂度比较大的情况下,可以在分析处理的各个环节分步压缩算法的时间复杂度。广州大学大数据计算与智能研究所教授杨世宇表示,在处理大数据问题的时候,针对不同的应用,出现的瓶颈也有可能是存储资源不足,而计算资源富余,经典的“时间换空间”或者“空间换时间”策略也可以被应用在大数据的场景下。黄智荣表示,这个问题可以从硬件和软件两个部分来考虑,硬件方面主要考虑分布式计算或者云计算等方式,软件方面则可以考虑对数据本身进行采样、压缩或者利用算法、模型对数据进行总结,用总结的模型来分析。秦建斌认为,可以从新硬件方面着手,探索新的计算模型,如近数据计算等,将计算任务交给靠近数据的存储器件,从而减少通信等的消耗。宝德计算机副总裁黄文杰表示,传统的以CPU为中心的计算模式可能会被颠覆,未来根据不同的应用场景可能会有以不同器件为中心的计算模式,如以存储、以网络为中心的计算模式等。
针对越来越复杂多样的大规模互联网、科学、工业数据,未来大规模数据处理的发展趋势和路线将会有什么特点?南方科技大学助理教授唐博表示工业大数据,比如芯片设计制造大数据往往具有规模大、速度快的特点,常常超出现有存储设备IO能力也快过现有流式算法的处理能力,是未来大规模数据库需要解决的棘手难题。针对这一问题,李建中表示,还是要从硬件 、算法、数据等方面考虑,特别是要分析问题的复杂度,将大数据化为小数据进行处理。
另一个发展趋势是机器学习和大模型技术的发展为大数据的分析和管理带了新的挑战和机遇。深圳计算科学研究院研究员林丹丹表示,实际业务中常常面临大规模图数据,在应用人工智能算法时往往遇到算力瓶颈,一种方法就是“大数化小”,通过一些限制条件缩小处理的规模,带动算法落地,如用户分级等,但这种分级策略也常常因为缺少真实标签而面临挑战。招商银行资深云计算架构师罗文江表示,AI或者大模型的方法也许可以从数据的角度帮助企业解决一些复杂的调配调控的问题,例如数万台服务器的智能调度或者资源购置和业务增长之间的调控等问题,这些问题对企业的生存发展至关重要,但以往只能通过管理手段来处理。深圳计算科学研究院研究员谢珉表示,机器学习算法可以和传统的基于规则的方法相结合,从而提升模型的效果。
经过一下午的热烈讨论,大家初步达成以下共识:未来大规模数据管理分析有赖于新硬件和算法方面的提升发展,同时针对特定的应用场景,选择合适的计算模型和合适的数据是一个关键。人工智能和大模型技术与传统大规模数据管理分析相互结合、相互促进是未来数据管理技术发展的重要趋势。
值得一提的是,在会议最后,陈国良院士也从百忙之中抽空来到现场和与会嘉宾们进行亲切的交流。
关于Wiztalk·湾区会议
“Wiztalk·湾区会议”是CCF YOCSEF深圳经过十五年积累,沉淀、凝练和持续发展而形成的大湾区青年精英学术交流品牌,旨在打造“高、专、精”的学术交流与研讨平台,帮助专业人员提升影响力,促进政产学研合作,助力湾区科技发展,发挥深圳特区示范作用。每期研讨会将定向邀请一线科技专家,以闭门会议的形式,针对某一具体基础/前沿技术进行深度启发式研讨。会议由YOCSEF深圳老主席和现任AC共同担任执行主席,为了更好地传播基础/前言技术,研讨会学术报告部分将酌情直播。
关于CCF YOCSFE深圳
中国计算机学会(CCF)青年计算机科技论坛(Young Computer Scientists & Engineers Forum,YOCSEF)是CCF于1998年创建的系列学术活动。CCF YOCSEF以“承担社会责任、提升成员能力”为宗旨,由来自全国有激情、有思想并富有社会责任感的学者、企业家和其他各界青年精英参与策划、组织,是CCF最具活力的部分。CCF YOCSEF当前的主要活动形式是观点论坛、技术论坛,此外还有学术评价、评奖、教育振兴和Club等活动。
YOCSEF深圳成立于2009年,目前已经走过十四年,是深圳计算机领域最活跃的青年学者组织,聚集了一批自信、活力、敢于创新、有抱负、有能力的青年精英,每年组织至少二十多场各类活动。紧密结合深圳和大湾区科技、学术与产业特点,对科技、人才和社会等热点问题展开深入研究,通过思辨与讨论方式厘清问题本质,为深圳和大湾区发展提供智库支持,并辐射全国。CCF YOCSEF 深圳期待您的加入。
加入联系人:张伟鹏(13760278278,微信同号)
赞助联系人:寇立言(19539141187,微信同号)