内容风控概念基础
目录
- 内容风控的来源
- 内容有哪些合规要求和潜在风险?
- 文本防控
- 图片防控
- 音频防控
- 视频防控
- 一些内容安全产品
内容风控的来源
一切都可以是内容,常见的如文本、图片、音频、视频
内容有哪些合规要求和潜在风险?
一是要监管的合规要求。主要是涉政、违禁、暴恐、色情四大类内容,这将直接导致平台面临约谈、整顿、罚款乃至关停等监管风险。
- 涉政:如领导人照片,事件,名字等
- 违禁:强制弹药,毒品,赌博等
- 暴恐:恐怖主意,杀人,暴乱等
- 色情:一些低俗文字小说,色情文字图片,行为等
二是商业平台要维护用户权益。如防止虚假宣传、欺诈广告等误导消费者的行为,如淘宝广告中的生男生女药物广告,虽然可能提高点击率,但显然违反规定且不道德。
文本防控
文本审核一般通过深度学习与智能文本语义分析,识别同一词在不同语境中的风险。文本识别重在要同步网安和网信办合规要求,建立违规敏感词库,一般要建立数十万级词库,涵盖各类敏感信息。
如下文本防控的场景多种多样:
图片防控
图片审核重在建立数据库,以及针对不同类型进行模型训练。图片分类、分级、分场景。
如
- 涉政图片:分普通、漫画、雕塑、恶搞、负面涉政等
- 色情图片识别,也需要分级(性感、色情、重度色情)
- 其它分场景(直播、视频、电商、社区、游戏)
音频防控
语音过滤可以利用人工智能将语音转文本,再识别文本中的涉政、色情、广告等内容。语音识别又涉及到不同语种,比如普通话、英语、各种方言等。
视频防控
需要将视频进行拆分,将视频进行画面截帧,从而过滤图片,图片中的字幕则利用OCR字幕来过滤。视频标题通过文本过滤模型来检测,视频语音则单独采用语音模型过滤。
视频识别需要视频内容中的画面、声音、文字进行全方位分析过滤,视频包括短视频、长视频、视频直播等多种场景。
一些内容安全产品
数美
-
阿里云:https://help.aliyun.com/document_detail/2573826.html
-
网易:https://dun.163.com/product/text-detection