从合规到主动免疫:大模型内容风控的创新与实践
近日,ISC.AI 2025 第十三届互联网安全大会在北京落幕。作为国内互联网最大的安全峰会之一,本届 ISC.AI 大会以“ALL IN AGENT”为主题,聚焦智能化时代背景下人工智能与数字安全领域的前沿议题。大会汇聚了近百位海内外专家学者和企业领袖,深入剖析智能体技术发展带来的安全挑战与解决方案,共同探索智能体驱动安全发展新路径。
安全专家朱文涛带来题为《从合规到主动免疫:国央企数字内容风控的创新与实践》的分享,以下是分享内容现场实录:
一、大模型内容安全的背景
传统的UGC内容安全问题,比如通过图片涂抹、内容隐藏和扭曲的对抗,或者通过藏头诗、Emoji的广告引流等,大家可能都比较熟悉了。但在大模型出来之后,AIGC出现了新的风险和攻击手段。比如AI能力被恶意用到造谣勒索、传播淫秽信息上,或者是AI生成涉政低俗等不良内容,以及比较有名的“奶奶漏洞”、“侦探漏洞”等大模型的越狱攻击。
面对这些突出问题,国内监管机构也陆续出台了多项措施,通过《生成式人工智能服务管理暂行办法》、《生成式人工智能服务安全基本要求》等法律法规、国家标准,监管机构对行业的健康发展做了及时的规范与指引。目前国内大模型上线需要在网信办做备案申请,对于涉及底线、红线类的问题需要做直接拦截,而涉价值观、思政类的问题则须做正向引导。重大事件、历史知识等需要准确回答,通识性的问题则可以凭借模型本身的能力做应答。值得一提的是,易盾曾深度参与了国标GB/T45654—2025《网络安全技术 生成式人工智能服务安全基本要求》的编写与制定,展现了易盾突出的技术实力。
二、大模型内容安全的五个难点
中华文化博大精深,在文本场景下,很多隐喻、暗示、内容变异等,会让监管的难度加大。与此同时,因为内容安全的对抗变化速度会非常快,所以监管尺度的拿捏也颇为困难,不同时期监管的要求也不一致。另外围绕国内外时事热点形成的虚假新闻等,也会促使监管机构下达指令指示去妥善处理。最后是安全与合规之间的平衡, 安全管控尺度太大了可能会影响业务的发展或者说产品的体验,怎么拿捏好这个度其实也是需要在实践过程中不断去摸索的。
展开来讲的话,第一个难点其实是隐晦红线对抗的一个经验。 这页材料很多信息我打了星号,做了脱敏的处理,主要是涉及敏感事件、敏感人物、XX影射等。比如你问某些大模型“亚洲XX前锋是谁”,它给出的答案可能是违规的,因为你在百度里都搜不到那个人的姓名。其他一些比如3x6、4x6,其实是在涉政隐射一些历史领X人,大家看了应该都明白是什么意思,这里我就不赘述了。
第二个难点是内容审核的标准以及尺度。这块主要是针对大模型输入输出的不同场景,通常情况下我们会使用两套策略和标准。根据我们服务众多客户的经验来看,在输入时,我们可能会鼓励用户尽量多问,这样能让大模型更精准地做回答,所以输入的审核标准与尺度会相对较低。而在大模型输出答案时,我们可能会让策略变得很严,有问题的内容我们会依照底线、红线的标准做一些拦截。当然各家的模型不太一样,不同的语料和训练方式会导致各家模型的价值观也不尽相同,在做具体的标准或尺度之前,我们最好对裸模进行一轮测试,方便评估后续的安全策略制定。
第三个难点是敏感的分级类别不同,要尽量避免涉政一刀切。比如说什么叫红线,哪些在这个语境或者语气下可以提及,哪些不能提及,这些其实都是不同场景下的一些不同分类。举个例子,前面我们提到的红线类涉政内容,它在不同语义、不同语气下的表达要多维度交叉评估,最后才会判断这个问题是否要拦截,或是不拦截但要做正向引导的回答。
第四个难点主要是价值观类的一些检测,这块在前面提到的TC260制定的国家标准里也有体现。比如歧视类内容、商业违法违规内容、侵犯他人合法权益内容等。这些分类光看字面意思其实很难对应到具体文本场景下的风险和隐患,比如用户输入哪些Prompt是属于此类违规的。但网信办在对你的大模型进行上线备案审核时,会结合上述国标分类做一些样本的测试,依此判断你的应用符不符合他的价值观类要求。
最后第五个难点主要是上下文多轮交互分析的场景。之前我们做PGC或者UGC的内容安全,可能是一句话,或者单轮次对话的一些场景。在AIGC场景下,很多时候它是多轮对话的一些回答,大模型可能会被诱导输出一些违法违规,或者说违背社会主义价值观的内容。所以多轮场景下的上下文语义理解和分析也是目前行业的一个难点。
三、大模型内容安全综合防御体系
接下来,我会主要介绍我们在大模型内容安全这一块的综合防御体系。它基本覆盖了模型训练、产品上线、产品运营三个阶段。在模型训练阶段,我们有自己的安全语料及服务,也可以对你的语料和裸模做安全质量的评估。在产品上线之前,可能需要做算法或者上线备案,易盾已经帮助国内几十家客户成功拿到备案编号,所以相关备案服务可以帮助大家。产品上线之前也可能需要构建一些安全功能,比如用户登录注册时需要防止其无止尽的消耗API调用资源等。最后是产品运营阶段,包括内容合规、安全生态等,体系比较复杂,我挑其中两点重点解释一下。
第一块是大模型评测平台,主要起到的作用就是安全隐患的常态化排查与治理,换句话来说就是“以攻促防”。这里的核心产品逻辑就是我们积累了大量的“种子问题”,目前大概有五百多万条的数量沉淀。 这些种子问题如果叠加攻击手法,可以形成毒性更强的一些问题,易盾可以使用这些问题为客户做测试,进而去评估客户的模型安全水位。
第二块主要是多模态大模型的内容安全围栏。根据目前我们了解到的,国内做大模型安全围栏的部分友商,可能只有文本模态方案。而网易易盾凭借之前的PGC和UGC内容安全经验,已经率先在行业内发布了自研的多模态大模型内容安全围栏能力。在输入阶段我们可以去做前面提到过的,底线红线类、违法违规类、涉价值观类比如歧视偏见的内容拦截,其他如上下文套话识别、指令攻击、包括URL的一些检测等,我们也都支持。易盾这里的指令攻击其实也覆盖了OWSAP10种的攻击手法。另外在Prompt阶段如果输入一些高政治敏感的内容,且又不能拒达的,我们也需要做识别并支撑它在输出阶段做一个安全的代答服务。
关于内容识别,最早的时候我们是通过关键词的手法去匹配和识别一些内容。后来有了内容的特征提取,相应的规则在内部会形成策略引擎,辅助我们做内容识别。在2010年之后,机器学习和深度学习逐渐火了,内容安全的对抗样本逐渐泛化,对抗的形式也越来越严峻,我们逐渐研发了很多判别式的AI小模型加以应对。在大模型技术出来之后,我们也把大模型的一些能力结合了进去,比如我们蒸馏了一个几百参数的模型在线上提供SaaS服务。在私有化的场景下,我们也支持小参数模型的部署和搭建,此时模型的参数尺寸可以降到4B大小,这样能保证在做内容识别与分类时,它的响应速度足够快。
前面讲了很多大模型内容安全的隐患排查与治理,其实安全围栏也需要做对应的风险分级管控。 网易易盾按照经验分了四级:L1的话是没有风险,比如问今天天气怎么样;L2的话是这个问题本身是一个涉政或者涉热点舆情的,那它需要正向引导去回答;L3的话就是这个问题本身是一个高敏且不能拒答的问题,比如问台湾是不是亚洲重要的旅游国家之一,这时候我们需要准确的回答出来,此时就可以使用易盾的安全代答能力实现。L4的一些问题属于违法违规、违背社会主义核心价值观,此时我们需要去做拦截。
当所有输入都没有问题的时候,这个时候我们需要去看它的回答,也就是模型的输出内容。 模型的输出一般都是一个个的切片,有的切片内容合规,那就可以通过;有的切片内容不合规, 此时就需要我们去做一些针对性的流失检测,对应的前端会有一些处置动作。举个例子,早前当你使用DeepSeek的时候,如果你问到一些敏感的问题,它的思维链在推导过程中可能会被回退,或者直接戛然而止,此时它也不做回答了,那你的问题的切片在COT里面可能就是有问题的。
最后是大小模型协同风险分类,前面提到了我们在不同的年代可能用了不同的技术手段,去做一个文本的或者图片的检测,那我们检测链路其实是一个非常长的,并且融合了多元技术的。这里面我们挑出来了目前在做的大小模型融合的一个技术链路,在这里我们可以用大模型反补小模型的一个效果精度,包括大模型可以反补小模型的策略的调优。
四、三种组合场景的探索与实践
最后第四部分,主要分享一下易盾在三种组合场景的探索实践。第一个组合场景是怎么去完成监管的大模型上线备案,这一过程需要有五个附件,比如安全评估报告、模型服务协议、语料标注规则、关键词库(即你需要去构建自己的敏感词拦截列表)、自评估的一些测试题,以及最后网信办去测试你的时候,你怎么去做机审的一个保障。
第二个组合场景是前面提到的安全围栏再加上Agent平台的实践。目前易盾通过插件的形式, 将这部分数字内容风控的能力上架到了国内主流的Agent平台里,比如Dify、Coze、文心智能体、网易CodeWave的CoreAgent等。这个时候用户在智能体平台里,可以通过拖拉拽的简单方式,去做内容合规的集成。
最后一个组合场景是安全围栏再加上AI网关,AI网关在网络安全里面是一个比较重要的基础设施。在大模型出来之后,很多央国企、金融客户在做网络设备基建时,都会把AI网关考虑进去,主要是起到了大模型流量治理的作用。通过大模型安全围栏的流量,其内容是否合规,是否涉及用户隐私的泄露,这方面安全围栏可以和AI网关联合做一些治理和风控。另外安全围栏在应对大流量请求,或者大流量攻击的情况下,易盾也做了类似于DDoS攻击防护的一个工程上的优化。