2025年11月22日,CCF YOCSEF南京钟山论剑观点论坛——“大模型落地狂飙:安全评估路在何方?”在南京金鹰尚美酒店举办。40余位来自高校、科研院所、企业以及相关职能部门的一线专家齐聚南京江宁百家湖畔,围绕大模型安全治理与评估体系建设展开深入讨论。论坛由YOCSEF南京AC副主席徐翔宇(东南大学)和AC委员张嘉超(南京工程学院)作为执行主席共同主持。
会议开始,张嘉超首先介绍了CCF YOCSEF的文化和使命,强调CCF YOCSEF南京分论坛始终坚持立足地方特色、汇集各方才智、倾听社会声音、探索学术高峰,并致力于促进江苏省内高校、企业与政府间的合作与交流。随后,徐翔宇详细介绍了此次观点论坛的背景。近年,以DeepSeek、Qwen 等为代表的大模型快速演进,大模型在政务、制造、电力、交通等关键领域加速“上车”实现落地应用。与此同时,安全评估与治理体系如何匹配业务需求、既守住安全与合规底线又不过度抑制创新,成为各方最为关注的核心问题。论坛旨在通过多方观点碰撞,厘清当前实践中的真实痛点,探讨可落地、可复制的大模型安全评估路径与机制。
引导发言:从安全可信、评测体系到实践防护的三重视角
论坛邀请了三位引导嘉宾,他们基于自身的丰富经验和独到见解,分别从大模型安全的科研挑战、大模型安全评测体系的构建与生成式人工智能防护的产业实践角度,带来了精彩的引导发言,为后续思辨奠定了技术与方法论基调。
蔺琛皓(西安交通大学网络空间安全学院教授),从国内外典型的安全事件出发,系统梳理了大模型在越狱绕过、内容伪造、幻觉与偏见等方面的风险,指出随着大模型大规模接入社会生产与公共服务场景,这些风险正快速传导至真实业务系统与社会治理体系中。从应对角度,他分享了团队在文本与文生图越狱、AIGC图像/视频真伪鉴别、视觉语言模型幻觉可解释溯源、公平性自动化评估以及移动端多模态AI Agent 攻击与防护等方面的最新研究成果。他强调,构建“可信可控”的大模型安全评估体系,已经成为未来大模型应用落地的关键前提。
王庆龙(浙江大学区块链与数据安全全国重点实验室研究员)围绕国内外前沿的安全框架,指出当前安全评测在风险维度覆盖、评测数据质量与代表性、指标体系统一性等方面仍存在系统性不足。他从评测维度、评测数据、评测指标与评测方法四个层面展开分析,呼吁构建兼顾法规要求与本土语境的系统化安全评测框架,通过高质量测试数据与可解释、可量化的指标体系,把“能评、会评、评得准”建设为连接监管需求、模型优化与产业落地的关键支点。
林昶廷(杭州君同未来科技有限责任公司联合创始人兼 COO )则从政务、能源等典型场景的实战案例出发,概括了大模型在提示词注入、数据泄露、智能体误用、幻觉以及具身智能安全等方面的全生命周期风险。他基于OWASP 等业界框架及国内相关标准,提出应以“全生命周期风险视角+ 标准化评测与防护体系”来系统应对场景化风险,将测试与防护一体化建设,作为支撑大模型安全落地与行业治理能力提升的重要抓手。
观点思辨:从“现状—短期—长远”三议大模型安全评估
在随后的“观点思辨”环节,与会嘉宾围绕以下三个议题展开深入讨论:
来自监管部门、大中小型企业、科研院所和安全厂商等多方代表,从框架设计、工程实践、评测方法到产业生态,为大模型安全评估的现实路径与未来形态提供了多角度思考。
思辨议题一:现有大模型安全评估距离解决落地安全需求有多远?
相关管理部门的参会人员首先从《生成式人工智能服务管理办法》和备案实践谈起,指出过去两年里,大模型备案工作取得了非常明显的成效,有力促进了技术创新和产业发展,推动人工智能安全、可靠、可控,但“完成备案≠绝对安全”,监管部门在现实中仍面临挑战,需要不断提升事前、事中、事后多层次监管能力。他表示,目前评估和备案主要聚焦生成内容合规与落实标识要求,而真实落地场景中的业务安全、数据隐私、极端场景风险仍有待被系统覆盖;同时,如果安全评估成本过高,中小企业难以承受,也会制约产业发展。因此,他一方面强调现有评估在“守住底线”上的作用,另一方面也抛出了本议题的核心追问:如何在兼顾监管要求和企业成本的前提下,让评估真正贴近不同行业的大模型落地风险。
经过深入讨论,与会嘉宾的主要观点可概括为:
观点1:备案与内容安全评估奠定了“底线安全”,但尚难覆盖业务与系统层风险。目前针对大模型的备案与合规评估,已经在意识形态安全、违法违规内容过滤等方面起到“把门人”的作用,但对于越狱绕过、提示词注入、业务逻辑被误导、隐性偏见与幻觉等复杂风险,现有题库式测试仍然难以穷尽。同时,“通过测试”并不意味着上线运行过程中不会出现新风险。
观点2:大模型的“黑盒 + 动态交互”扩展了安全边界,责任划分与社会风险尚缺评估抓手。嘉宾指出,大模型可解释性弱,出问题时难以在数据提供方、标注方、模型开发方、应用方及许可方之间快速厘清责任。同时,持续的人机对话、价值观输出和知识生产,可能带来认知偏移、价值观渗透和知识趋同等社会层面的长期风险,而现有以题库为主的静态评估几乎未触及这些“人机共生”层面的隐性安全议题。
观点3:不同场景的安全需求分层明显,高风险领域对评估强度与精度要求更高。通用ToC场景更加关注价值观对齐与基本内容安全,在可用性与合规之间寻找平衡;而政务、工业制造、关键基础设施等高风险领域,则更强调隐私泄露防护、物理与生产安全以及极端场景和分布外输入下的稳定性,对安全评估的覆盖深度、压力测试强度与可解释性提出更高要求。
观点4:头部机构的“全生命周期工程化评估”难以被广泛复制。部分头部企业已经在数据采集与清洗、模型训练与微调、部署与运维等全链路嵌入工程化安全评估与防护机制,形成“自评 + 第三方评估+ 红队攻防”的组合。但这种高投入、强专业化的模式对资源有限的中小企业而言难以承受,迫切需要形成风险分层清晰、成本可控、可解释性更强、产品化程度更高的评估框架与服务体系。
观点5:安全具有高度动态性,监管与企业均承受持续的责任压力与不确定性。一方面,监管部门即便完成备案审核,也难在重大安全事件中完全切割责任;另一方面,企业为满足备案要求投入大量资源,却仍需面对真实运行环境中难以预判的“未知风险”,在安全投入、上线进度与业务创新之间长期承受两难博弈。
小结: 当前大模型安全评估在守住“内容与合规底线”方面已初具体系,却在场景化风险覆盖、评估成本与收益平衡、责任边界与可解释性等方面与真实落地需求存在明显“距离”。如何在不同风险等级场景间实现分层治理,在监管压力与创新动力之间找到平衡,为后续“短期怎么调、长期怎么建”的讨论指明了问题的起点。
思辨议题二:短期来看,大模型安全评估方案如何调整能够覆盖现有需求缺口?
郝振武(中兴通讯安全方案策划总工)以“产品安全治理”的经验类比大模型安全,认为短期内更现实的路径不是再造一个完全全新的体系,而是把既有的软件与网络安全工程化方法迁移到大模型场景,把安全评估前移并嵌入全研发流程,而不是只在上线前做一次“大测验”。他指出,目前企业普遍通过训练数据和模型来源审查、静/动态扫描和合规性测试,基本能满足“可以上线”的底线要求,但真正高风险场景往往还需要昂贵且人力密集的深度安全测试团队支撑,使得很多评估在现实中更像是一种“心理安慰”和交付凭证,而非覆盖全部风险的解决方案。这一视角直接引出了本议题后续围绕“分层分级策略、工程化评估流程、统一基线与场景化标准及第三方评估服务”的深入讨论。
针对该议题,与会嘉宾关键共识可概括为:
观点1:以“国家底线+ 用户底线”为前提,推进分层分级评估。
短期内应优先解决“看得见、做得了”的合规与基础安全问题,对通用低风险应用以合规基线和基本内容安全为主,对政务、工业制造、关键基础设施等高风险场景,则配置更高强度、节奏更缓的专项评估与攻防验证,形成分层分级、强度与成本匹配的评估策略,而非“一刀切”。
观点2:借鉴传统产品安全治理经验,把安全评估“前移”并嵌入研发全流程。
与会嘉宾以通信设备与网络产品的安全治理实践为例指出,事后补救往往代价高昂、效果有限,更可行的路径是在需求分析、系统设计、代码开发、集成测试、上线发布等阶段都引入匹配的安全评估与校验环节,使“按安全级别设计、按设计要求测试”成为工程常态,而不是仅在上线前集中补齐安全工作。
观点3:以“统一基线+ 行业场景标准/题库 + 新型测试维度”完善评估方法。
在评估方法上,要在国家或行业层面形成统一的安全基线,同时对具体行业应用,联合头部单位和行业协会沉淀场景化题库和评估规范;在具体测试中引入多轮对话、提示词注入、隐晦攻击、对抗样本等新型测试维度,逐步提升对隐性风险与越狱能力的识别能力。
观点4:在安全对齐之外强化“护栏思维”,通过运行时防护弥补静态评测不足。讨论中有人指出,过度强调安全对齐会显著牺牲用户体验,而单纯叠加题库也难以应对运行时的新型攻击。短期应在保持基本对齐的前提下,引入运行时监测、异常行为拦截、操作审批、敏感动作双通道确认等护栏机制,让评估与防护协同发挥作用,尤其是在具身智能、自动化执行等高风险场景中形成兜底。
观点5:通过第三方评估与服务拓展能力供给,帮助中小机构“抬脚上车”。
嘉宾普遍认为,不能完全依赖监管抽检或企业自建安全团队,应充分发挥第三方评估机构、安全厂商和云平台的专业优势,为中小机构提供可按需订阅的评估与防护服务。安全厂商也可利用自身在传统网络与系统安全领域积累的红队、攻防经验,快速转化为大模型评估工具和服务,形成“事前评估—事中监测—事后溯源”的闭环能力。
观点6:承认“绝对安全不存在”,把评估从“一次性闯关”转为“持续巡检+ 逐步加固”。多位嘉宾强调,技术安全从来只有“风险可控”,没有“绝对安全”,大模型也不例外。短期内更现实的路径,是通过基线评估锁定主要风险区间,再根据运行中的暴露问题迭代测试用例和对策,实现“哪里漏了补哪里”的动态治理,而不是奢望通过一次评测永久解决问题。
小结: 在短期视角下,补齐大模型安全评估缺口的关键,并不是追求完美无缺,而是通过“底线优先、分层治理、工程前移、动态巡检”,在可见的合规与业务风险上尽快做到“有人管、管得住”。统一基线与场景标准、新型测试维度与第三方服务的组合,为各类主体提供了不同投入水平下的可行路径,为构建长期安全治理体系打下可操作的“地基”。
思辨议题三:长远来看,怎样的大模型安全评估形态能够真正解决落地应用需求?
邓攀科(中国电子信息产业发展研究院数据产业中心研究室副主任)把话题拉向制度与生态的长期演进:他梳理了近年来围绕内容安全、数据安全、算力与数据基础设施密集出台的政策和标准,指出在大模型“涌现式能力”出现之前,安全评估更像是对既有系统的模块化体检,而在深度生成与多模态时代,安全问题已演变为在庞大数据流与复杂场景中持续出现的“运动目标”。与此同时,安全厂商正从单纯卖设备、做托管服务,转向参与高质量数据集、可信数据空间等数据基础设施建设,把安全能力内嵌到数据要素流通和产业生态之中。嘉宾据此提出,未来真正有效的大模型安全评估,必须在多部门协同与数据基础设施建设的大框架下定位自身:既要服务产业发展、形成可持续的市场与商业模式,又要把评估做成公共性、长期性的安全底座。
围绕这一议题,主要观点可归纳为:
观点1:从“单点规范”走向“多部门协同”的法律政策与标准框架。嘉宾指出,未来的大模型安全评估须在网信、工信、数据、发改、国防等多部门协同下,构建覆盖内容安全、数据安全、算法安全和应用安全的系统化政策与标准体系,以备案、认证和指定评估机构等机制为抓手,形成可持续运行的评估与认证体系。
观点2:企业内部建立常态化风控与自评机制,把安全内生为产品能力。
从企业视角看,长远之计不是“项目式应付评测”,而是把安全评估前移并贯穿数据治理、模型训练、应用开发与运维管理各环节,形成与业务场景相匹配的风险分级策略、上线准入机制及变更管控流程,将安全从“额外成本”转化为提升产品可信度与竞争力的核心能力。
观点3:评估对象从“模型本身”扩展为“系统整体”。
嘉宾们普遍认为,未来评估不应只看模型参数和单次输出,而要纳入模型 API、提示词与防护策略、前后置安全网关、数据空间与内容风控链路等在内的整体系统,并依托高质量的数据基础设施和标准化评测数据集,支撑跨机构、跨场景的评估结果可比性与复用性。这与当前政策层面对“人工智能服务管理办法”“新一代人工智能标准体系”“高质量数据发展意见”等顶层设计相呼应。
观点4:评估模式从“项目驱动”走向“生态驱动”,避免被技术迭代速度甩在身后。嘉宾以近年来技术迭代为例指出,从百模大战到新架构、新硬件加速方案,变化几乎以季度为单位发生,传统“立一个大工程项目—几年后验收”的模式难以跟上。因此,未来更可行的形态,是通过市场与生态驱动,让安全能力持续融入产业发展过程,在“安全设计—安全落地—弹性/韧性安全”循环中自然演进。
观点5:构建公共安全基础设施:共享沙箱、工具与数据空间,为各方提供“安全底座”。讨论中提到,一些重点行业正在探索建设公共服务设施,如安全沙箱、统一测试平台和数据流通基础设施,这些设施在服务数据高质量发展的同时,本质上也是安全治理的重要抓手。未来的大模型安全评估,可在此基础上形成“可复用的公共工具 + 可扩展的场景插件”模式,既降低接入门槛,又保留场景差异化空间。
观点6:通过合同机制、安全保险与市场化服务,完善责任划分与激励约束,实现多方协同治理。嘉宾认为,长期形态中,模型提供方、应用集成方、行业用户与安全服务商应通过合同、安全保险等金融与法律工具,被纳入统一的责任与收益分配框架,遵循“谁最了解风险、谁掌握关键环节,谁承担相应责任”的原则。这将与监管牵引、行业组织协调和技术创新共同构成“监管 + 市场+ 技术”的长效协同治理模式。
小结:从长期看,大模型安全评估将不再是一次性的“打分流程”,而将演进为由监管部门、行业组织、企业及第三方机构共同参与的、覆盖全生命周期的综合治理体系。其上层是法律政策与标准规范的统一框架;其下层是企业内部可持续、可验证的风险管理与技术防护能力;其间由公共安全基础设施、专业服务机构和行业组织共同支撑。只有在这样的多元协同格局下,安全评估才能从被动的“阻力项”真正转化为支撑大模型产业持续健康发展的基础性能力。
论坛总结
历经四个小时的思想碰撞,与会嘉宾达成共识:在大模型加速落地的今天,“发展”与“安全”必须同步推进。大模型安全评估既是合规要求,更是守护业务连续性、社会秩序和创新生态的关键支撑。论坛从“现状有多远”“短期怎么调”到“长远怎么建”三个层次,系统梳理了当前国内大模型安全评估的实践基础、现实缺口与发展方向,为后续政策制定、行业标准建设以及企业实践提供了重要参照。
与会嘉宾希望未来进一步加强监管部门、行业企业、科研机构与第三方安全服务商之间的协同,围绕高风险关键领域探索可复制的场景化评估与防护方案,同时在数据基础设施、标准化评测数据集、工具平台与生态建设方面持续投入,推动形成既符合我国国情、又具有国际可对话性的“大模型安全评估中国方案”。本次论坛的相关成果也将进一步整理形成专题报告,提交有关部门和行业机构参考,为构建安全、可信、可持续的大模型应用生态贡献“YOCSEF南京”的智慧与力量。
媒体报道
撰稿:徐翔宇、张嘉超
审核:朱光辉
编辑:孟凡



