Research相关的面试(个人)
(一)人工智能安全:
让 AI 自身更鲁棒可信、防止 AI 被坏人滥用、再用 AI 去加固整个系统 如何解释这句话
编辑
复制
把这句话拆成三层“同心圆”,用一句大白话+一个例子就能让面试官秒懂:
1️⃣ 让 AI 自身更鲁棒可信(内圈:模型本身)
大白话:模型不能“一骗就倒”,也不能“胡说八道”。
例子:在银行卡欺诈检测模型里,加入对抗训练后,攻击者即使把交易金额小数点后两位改得再隐蔽,模型依然能识别,不会因为一点扰动就把欺诈交易判成正常。
2️⃣ 防止 AI 被坏人滥用(中圈:使用边界)
大白话:不给坏人“武器”,也不让好人“误伤”。
例子:公司把 GPT 接入客服系统,但用 RLHF+敏感词过滤双重护栏,确保它不会生成涉政、涉黄或泄露用户隐私的回复,同时后台实时监控调用量,发现异常即封号。
3️⃣ 再用 AI 去加固整个系统(外圈:以 AI 制 AI)
大白话:用“魔法”打败“魔法”。
例子:在 Web 防火墙里再部署一个轻量级 Transformer,实时分析流量日志,一旦检测到用 AI 生成的攻击脚本(如 DeepExploit 自动生成的 SQL 注入),毫秒级调用 WAF 规则拦截,实现“AI 攻击 VS AI 防御”的闭环。
一句话总结
“内圈”让模型“身体强壮”,“中圈”给它“道德底线”,“外圈”再给它“智能保镖”,三层叠加就是 AI 安全的全景图。
(二)