当前位置: 首页 > news >正文

西电【信息与内容安全】课程期末复习笔记

image

西电【信息与内容安全】课程期末复习笔记

来自2022年春的古早遗留档案,有人需要这个,我就再发一下吧。

  • 平时成绩: 10%。
  • 线上: 10% (线上学习内容, 共 100 分。)
  • 实验: 10% (共 2 次实验, 每次实验按 50 分制评分,共 100 分。)
  • 论文: 20% (以任何信息与内容安全相关技术撰写一篇学术报告,主题自拟,可适当结合自身研究方向,按所提供 word 模板不少于双栏 4 页。 注意,不允许综述型论文)
  • 考试: 50%

image.png

image.png

image.png


重点

信息与内容安全简介

信息与内容安全概述

内容域与网络域

image.png

信息内容安全定义

  • 信息内容安全是信息安全法律、政治、道德层次上的要求,是语义层次的安全。我们要求信息内容是安全的,就是要求信息内容在政治上是健康的, 在法律上是符合国家法律法规的,在道德上是符合中华民族优良的道德规范的。

  • 广义的信息内容安全既包括信息内容在政治、法律和道德方面的要求,也包括:

    • 数据的获取,
    • 信息内容的分析与识别,
    • 数字图像视频内容安全,
    • 多媒体信息隐藏,
    • 隐私保护
    • 等诸多方面。

信息内容安全的研究意义

  • 随着大数据时代的到来以及科学技术的不断进步,数字资料的获取、存储、传输、编辑、转移和利用更加便利,然而人们也可以对其进行任意修改和伪造
  • 对互联网上数字媒体信息的真实性完整性进行破坏,一方面侵犯个人隐私、版权保护问题,另一方面对社会公共秩序、军事和国家安全等方面均会产生不良影响。
  • 虚假新闻的社会传播的往往产生严重后果, 暴力煽动语言的破坏性尤其巨大
  • 随着密码和图像水印技术的普及,网上利用信息加密内容隐藏等技术,隐秘传输非法信息的现象日益普遍

机器学习简介

了解

机器学习

假设用 𝑃 来评估计算机程序在某任务 𝑇 上的性能,若一个程序通过利用经验 𝐸 在 𝑇 中任务上获得了性能改善,则我们就说关于 𝑇 和 𝑃,该程序对 𝐸 进行了学习

机器学习的三个步骤:

  • 一组方程
  • 衡量方程的优劣
  • 找出最好的方程

深度学习

深度学习的三个步骤:

  • 神经网络
  • 衡量方程的优劣
  • 找出最好的方程

对抗样本攻击

机器学习算法以数字向量的形式接受输入。以一种特定的方式设计输入,从而从模型中得到一个错误的结果,这便被称为对抗性攻击

信息获取与表示

信息内容的获取

获取

网络信息内容的类型

  • 网络媒体信息
  • 网络通讯信息

网络媒体信息获取方法

  • 网络媒体信息获取方法
  • 基于自然人网络浏览行为模拟的信息获取

信息内容的表示

视觉信息特征

image.png

image.png

视觉信息的处理过程:

获取、压缩、传输、重建、处理

人眼两种细胞的区分

  • 锥状细胞:高亮度、细节信息、快速变化、数量上
  • 柱状细胞:低亮度、数量多

三原色

像素化

电脑中表示图像信息

颜色特征

  • 直方图
  • 主色调……

纹理特征

  • LBP(考计算)

    image.png

  • HOG(理解)

    image.png

    image.png

  • SIFT(深度学习之前最经典的特征,基本原理,尺度不变)

    image.png

    image.png

文本特征

文本特征表达(one-hot),另外三种方法的基本概念

1-of-N Encoding( One-hot Encoding)

如何将文本表达成向量?

  • 词频: 词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值或大于某一值的词删除,从而降低特征空间的维数。
  • 文档频数: 文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。
  • TF-IDF:词频(TF)=某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)=log(语料库的文档总数 / (包含该词的文档数+1))TF-IDF = TF * IDF

音频特征

音频特征表达(流程图,变成彩色图案)

image.png

image.png

image.png

增强、切片、DFT、频谱图、可视化、图像分析方法

IDFT、MFCC

  • IDFT
    MFCC

深度学习基础

选择、填空、计算

三个步骤

  • 设计神经网络

    image.png

  • 评估网络好坏

    image.png

    image.png

  • 选择最好的网络

神经元、神经网络

神经元的构造,激活函数,不要求计算,但要求掌握输入输出过程公式

神经网络-全连接层

神经网络基本概念,维度

全连接神经网络:全部连接

交叉熵损失的训练方法,梯度下降,反向传播

image.png

image.png

卷积神经网络

image.png

  • 卷积:卷积的基本流程

    • 卷积核

    • 要求会计算卷积

    • 优点

      • 缩减参数
      • 共享参数
  • 池化:最大最小池化,输入输出位数

  • 展平:

  • 全连接:

(卷积、池化多次重复)

image.png

理解神经网络

神经网络可视化

image.png

经典神经网络结构

(了解)

LeNet-5

AlexNet 2012

  • ReLU
  • 标准化
  • Dropout
  • 数据增广

VGGNet

  • 3x3 小卷积
  • 16、19层

GoogLeNet

  • 23层
  • 不同尺度特征图串联
  • 1x1 conv

ResNet

  • 152层
  • 残差学习:跳层连接,解决梯度消失问题

生成对抗网络 GAN

image.png

(偏概念)

生成器

判别器

GAN 步骤与原理

image.png

image.png

image.png

image.png

argmax/argmin的意思是在里面达到最大的时候,min/max下面那个变量的值

V(G,D)严格定义叫散度,但应该不要求掌握散度是啥,大概理解就是两个图像的差距

初始化生成器【输入随机向量】、判别器【输入为图像】,固定一个,更新一个【二者博弈得到生
成】
生成器原理【散度】
判别器原理【采样】

image.png

image.png

GAN 里的各种公式,最大最小

image.png

PPT 上的特别小的公式了解为主

参考:DCGAN Tutorial — PyTorch Tutorials 1.11.0+cu102 documentation

image.png

Conditional GAN

(了解,可用图像风格转换)

条件的意思:输入不是随机向量,而是一个图像

InfoGAN

主要区别:提供两个输入

普通的GAN存在无约束、不可控、噪声信号z很难解释等问题,2016年发表在NIPS顶会上的文章InfoGAN:Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets,提出了InfoGAN的生成对抗网络。InfoGAN 主要特点是对GAN进行了一些改动,成功地让网络学到了可解释的特征,网络训练完成之后,我们可以通过设定输入生成器的隐含编码来控制生成数据的特征。

    作者将输入生成器的随机噪声分成了两部分:一部分是随机噪声Z, 另一部分是由若干隐变量拼接而成的latent code c。其中,c会有先验的概率分布,可以离散也可以连续,用来代表生成数据的不同特征。例如:对于MNIST数据集,c包含离散部分和连续部分,离散部分取值为0~9的离散随机变量(表示数字),连续部分有两个连续型随机变量(分别表示倾斜度和粗细度)。

InfoGAN-无监督式GAN - 简书 (jianshu.com)

应用

image.png

了解即可

  • 图像翻译

    • Pix2Pix
    • CycleGAN
    • StarGAN:多合一
  • 人脸属性编辑

  • 图片质量增强

  • 文本合成图像

    • Text-conditional GAN
  • 图像语义分割

  • 人脸去遮挡任务

  • 小物体检测

Attack ML Models

在线社交网络分析 与 舆情检测

在线社交网络分析

了解原理即可

image.png

在线社交网络是一种在信息网络上由社会个体集合及个体之间的连接关系构成的社会性结构,包含关系结构网络群体网络信息三个要素。

在线社交网络的三个维度

  • 结构
  • 群体
  • 信息

在线社交网络的地位和作用

  • 政治
  • 经济
  • 文化
  • 生活

在线社交网络分析定义

在线社交网络分析是指从网络结构群体互动信息传播三个维度,基于信息学、数学、社会学、管理学、心理学等多学科的融合理论和方法,为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。

信息传播模型

(掌握原理)

影响力模型

每个节点有两种状态: 活跃(active)和不活跃(inactive), 只有活跃状态的节点才具有影响力, 能够影响其他节点。

当一个节点被其他节点影响成功时, 则称该节点被激活, 不活跃状态的节点不能激活其他节点

社会网络的影响力传播表现为节点状态由不活跃变激活为活跃, 状态转变是单向的, 即网络中不存在由活跃变为不活跃的情况。

Independent Cascade (IC) 独立级联模型

image.png

Linear Threshold (LT) 线性阈值模型

image.png

传染模型

传染模型也叫流行病模型, 用于描述个人传播传染病的方式

节点有三种状态

  • S 易感人群:易感节点可能会感染疾病
  • I 感染人群:感染节点有机会去感染易感人群
  • R 免疫人群:感染节点被治愈后不会再得疾病的人群

Susceptible Infected Recovered (SIR)

设总人口为N(t), 则有N(t)=s(t)+i(t)+r(t)。

三个假设:

  • 人口始终保持一个常数, 即N(t)≡K。
  • 假设t时刻单位时间内, 一个病人能传染的易感者数目与此环境内易感者总数s(t)成正比, 比例系数为β, 从而在t时刻单位时间内被所有病人传染的人数为βs(t)i(t)。
  • t时刻, 单位时间内从染病者中移出的人数与病人数量成正比, 比例系数为γ, 单位时间内移出者的数量为γi(t)

image.png

image.png

image.png

β: 易感节点被成功感染的概率
μ: 感染节点被治愈的概率

社交网络传播引导

如何投放信息使其传播影响力最大?

影响力计算方法

就是总体过程求平均

image.png

影响力最大化贪婪算法

原理:只保留最大影响力的节点

image.png

社交网络话题发现模型

概率潜在语义分析模型(PLSA) (了解为主)

image.png

舆情检测

记忆基本概念,特性,演化流程

image.png

网络舆情:是指以互联网为载体所表达的公众情绪,究其本质是社会情绪在互联网这个可见载体上的公共表达。

网络舆情特征

  • 自发性
  • 指向性
  • 时效性
  • 情绪性
  • 片面性

网络舆情演化

  • 形成期
  • 高涨期
  • 波动期
  • 消退期

网络舆情监测系统

image.png

三个层

  • 数据采集处理层

    • 提供网络数据采集预处理功能

      • 网络爬虫(了解)
      • PageRank(了解)
  • 舆情分析处理层

    • 主要提供话题检测、 话题跟踪、 倾向性分析、 自动摘要以及中文分词等功能
    • 主要完成热点话题的检测、 跟踪以及情感倾向性分析, 并且对各类热点话题及倾向性进行自动摘要, 分析结果存入数据库, 以便为用户提供各种舆情分析服务。
    • 舆情分析引擎的核心技术文本聚类、 文本分类、 情感分析中所采用的模型与算法, 直接关系到系统的性能高低。
  • 舆情分析服务层

    • 主要提供突发事件分析、 舆情预警报警、 舆情趋势分析、 舆情统计报告以及舆情查询检索等各种舆情分析服务

信息过滤

image.png

image.png

信息过滤通常是在输入数据流中移除数据, 而不是在输入数据流中找到数据。

在信息内容安全领域, 信息过滤是提供信息的有效流动, 消除或者减少信息过量、信息混乱、信息滥用造成的危害。

信息过滤模型

image.png

过滤模型,各部分

例子

信息过滤与其他信息处理异同

信息处理方法信息需要/需求信息源
信息过滤稳定的、特定的信息动态的、非结构化的
信息检索动态的、特定的信息稳定的、非结构化的
数据访问动态的、特定的信息稳定的、结构化的
信息提取特定的信息非结构化的​​

信息检索

image.png

信息分类

image.png

信息抽取(信息提取)

image.png

信息过滤应用

  • Internet搜索结果的过滤
  • 用户电子邮件过滤(垃圾邮件过滤)
  • 服务器/新闻组过滤
  • 浏览器过滤
  • 专为孩子的过滤(绿色上网)
  • 为客户的过滤-用户爱好推荐(APP个性化推荐)

信息过滤评价

image.png

分类体系

image.png

image.png

过滤方法

要会计算

  • 根据操作方法

    • 主动

      • 主动搜集信息,并将相关信息发送给用户
    • 被动

      • 不负责为用户搜集信息
  • 根据操作位置

    • 在信息端过滤
    • 过滤服务器端过滤
    • 客户端过滤
  • 过滤方法

    • 基于认知的过滤(Cognitive filtering)

      • 基于内容或者用户兴趣的过滤
      • 将文档内容和用户的Profile进行相似度计算
    • 基于社会的过滤(Sociological filtering)

      • 也称为协同过滤(Collaborative filtering)
      • 对某个用户的Profile进行匹配时,通过用户之间的相似度来计算Profile和文档的匹配程度
      • 社会过滤常常使用用户建模(User modeling)及用户聚类(User clustering)等技术。
  • 根据获取用户知识分类

    • 显式
    • 隐式
    • 显式和隐式相结合的方法
  • 基于匹配的信息过滤:字符串匹配

  • 单模式

    • BF(Brute Force, 穷举/暴力破解法)

    • KMP(由D.E.Knuth、 J.H.Morris和V.R.Pratt设计)

      • next数组、 PMT (Partial Match Table) 部分匹配表
      • 七分钟了解什么是 KMP算法_哔哩哔哩_bilibili
    • BM(由 Bob Boyer 和 J Strother Moore 设计)

      • 从右向左扫描:从右到左取p中字符比较
      • 坏字符规则
      • 动画演示什么是BM算法_哔哩哔哩_bilibili
  • 多模式

    • 多模式匹配: AC自动机算法

      • 基本思想:

        • 在预处理阶段, AC自动机算法建立了三个函数, 转向函数goto失效函数failure输出函数output, 由此构造了一个树型有限自动机。

          先计算深度为1的状态失效函数, 再计算深度为2的失效函数, 依次类推;

          image.png

        • 在搜索查找阶段, 则通过这三个函数的交叉使用扫描文本, 定位出关键字在文本中的所有出现位置。

      • 特点:

        • 扫描文本时完全不需要回溯;
        • 时间复杂度为O(n), 与关键字的数目和长度无关。
      • 用最直观的方式理解AC自动机_哔哩哔哩_bilibili

image.png

对抗攻击与防御

image.png

image.png

image.png

攻击的损失函数

image.png

约束范式

  • L2-norm

    image.png

  • L-infinity

    image.png

FGSM

image.png

白盒攻击 黑盒攻击

(简答题,怎样是 xx 攻击)

攻击方式举例

单像素攻击

差分进化

文本攻击

语音攻击

防御手段

(简答:思想,实现)

  • 被动

    • 特征挤压 (Feature Squeeze)

      将图像经过原模型、经过Squeezer处理后的结果进行比较,如果结果有差异,
      则输入图像可能是被攻击过了。
      • 这里的Squeezer可以是整体压缩每个像素值、图像局部平滑等操作

  • 主动

    • 增加对抗数据

视觉内容伪造与检测

偏概念

方法

例子 s,知道有那些方法就行

image.png

人脸替换的基本原理

伪造检测方法分类

image.png

  • 手动特征
  • 检测网络

image.png

身份认证系统的攻击与防御

身份认证

身份认证概念、流程

保证操作者的物理身份数字身份相对应

物理身份与数字身份一致

基本途径

  • 基于你所知道的(What you know )
  • 基于你所拥有的(What you have )– 身份证、信用卡、钥匙、智能卡、令牌、私钥等
  • 基于你的个人特征(What you are) – 指纹,笔迹,声音,手型,脸型,视网膜,虹膜
  • 双因素、多因素认证

生物特征

image.png

生物特征种类比较

  • 指纹
  • 手形
  • 手部血管分布
  • 人脸
  • 脸部热量图
  • 虹膜
  • 视网膜
  • 签名
  • 语音

生物特征的比较
• 指纹:最经典、最成熟的生物认证技术
• 人脸:自然,直观,无侵害,易用的生物认证技术
• 手掌: 易实现,成本低,识别速度快的生物认证技术
• 虹膜:高独特,高稳定的生物认证技术
• 视网膜:受保护,防欺骗性好;采集困难
• 签名:易于接受,常用于信用卡、文件生效等场合
• 声音:成本低,代价小,常用作辅助手段

生物特征认证流程
  1. 注册

  2. 识别

  3. 匹配

    • 验证 1:1 比对
    • 鉴别 1:n 比对

活体检测方法

概念、场景

异常检测

概念为主

image.png

是否是一类数据,检测目标

应用

  • 信用卡盗刷
  • 癌细胞...

与普通二分类区别

有标记方法

image.png

无标记方法

image.png

评价方法

目标不同,严格程度(假阳性..)

image.png

线上内容

image.png

image.png

参考

非常感谢未知名同学的思维导图,如有侵权请联系作者。

相关文章:

  • 53. 最大的子数组和
  • 26-数据结构-顺序表1
  • go部分语法记录
  • 算法第14天|继续学习二叉树:找二叉树左下角的值、二叉树路径总和、从中序遍历与后序遍历序列构建二叉树
  • 数据结构 (树) 学习 2025年6月12日12:59:39
  • 校园网数据安全防线
  • 【力扣 简单 C】83. 删除排序链表中的重复元素
  • 浅析4D-bev标注技术在自动驾驶领域的重要性
  • python中的分支结构:单分支、多分支,switch语句
  • Haption遥操作机械臂解决方案通过高精度力反馈技术实现人机协同操作
  • 常用三款解压软件对比
  • python学习---dayday2
  • 数据库-数据查询-Like
  • Vue3+TypeScript实现解释器模式
  • Vue3+TypeScript实现责任链模式
  • 苍穹外卖Day11代码解析以及深入思考
  • 微服务架构中的 Kafka:异步通信与服务解耦(四)
  • idea2024版本设置TODO快捷键
  • 【Java开发日记】简单说一说使用 Netty 进行 Socket 编程
  • 虚拟 DOM Diff 算法详解
  • 网站轮换图片怎么做/百度招聘官网首页
  • 济南优化网站排名/漯河网站推广公司
  • 一个公司做两个网站可以吗/广告投放网站平台
  • 怎么自己在百度上做网站/优化排名
  • 手机网站用什么开发/营销型网站有哪些平台
  • 国外广告联盟的真实收入/aso优化服务平台