当前位置: 首页 > wzjs >正文

共享网站哪里建高端seo服务

共享网站哪里建,高端seo服务,做营销网站建设价格,网站程序引擎文章目录1 Softmax回归1.1 分类 vs 回归1.2 从回归到分类1.3 Softmax函数1.4 交叉熵损失(Cross-Entropy)2 经典损失函数2.1 均方误差(MSE / L2 Loss)2.2 绝对值误差(MAE / L1 Loss)2.3 Huber Loss&#xff…

文章目录

  • 1 Softmax回归
    • 1.1 分类 vs 回归
    • 1.2 从回归到分类
    • 1.3 Softmax函数
    • 1.4 交叉熵损失(Cross-Entropy)
  • 2 经典损失函数
    • 2.1 均方误差(MSE / L2 Loss)
    • 2.2 绝对值误差(MAE / L1 Loss)
    • 2.3 Huber Loss(鲁棒损失)
  • 3 图像分类数据集
    • 3.1 读取数据集
    • 3.2 读取小批量
    • 4 softmax回归的简洁实现

硬件配置:

  • Windows 11 + WLS2 + Ubuntu-24.04
  • Intel®Core™i7-12700H
  • NVIDIA GeForce RTX 3070 Ti Laptop GPU

软件环境:

  • Pycharm 2025.1.3.1
  • Python 3.13.5
  • Pytorch 2.7.1+cu128
image-20250425153815412

1 Softmax回归

1.1 分类 vs 回归

  • 回归:预测连续值(如房价),输出为单值,损失函数通常用均方误差(MSE)。
  • 分类:预测离散类别(如猫/狗),输出为多值(每个类别对应一个置信度),损失函数常用交叉熵。
image-20250425154224188

多分类问题示例

  • MNIST:10类手写数字识别(0-9)。
  • ImageNet:1000类自然物体分类(含100种狗)。
image-20250425154050533
  • 其他应用:

    • 蛋白质分类(28 类显微镜图像)。

      image-20250425154121848
    • 恶意软件检测(多类别分类)。

      image-20250425154130084
    • 文本情感分类(如 Wikipedia 评论的 7 类恶意性判断)。

      image-20250425154137783

1.2 从回归到分类

类别编码:One-Hot编码

  • 对于 N 个类别,标签 Y 为长度为 N 的向量,真实类别对应位置为 1,其余为 0。
  • 示例:3 分类问题,类别 2 的编码为 [0, 1, 0]
image-20250425154658815

扩展回归的局限性

  • 问题:直接对多输出使用 MSE 损失,无法保证模型关注“相对置信度”。
  • 改进目标:使正确类别的置信度 oyo_yoy 显著高于其他类别(如 oy−oi>Δo_y - o_i > \Deltaoyoi>Δ)。
image-20250425154547332

1.3 Softmax函数

​ 将原始输出 ooo 转换为概率分布 y^\hat{y}y^,满足:

  • 非负性:y^i≥0\hat{y}_i ≥ 0y^i0
  • 归一化:∑y^i=1∑\hat{y}_i = 1y^i=1

y^i=eoi∑j=1Neoj\hat{y}_i=\frac{e^{o_i}}{\sum_{j=1}^Ne^{o_j}} y^i=j=1Neojeoi

​ 作用:

  • 指数变换:确保输出非负,并放大差异。
  • 分母:归一化所有类别的概率。
image-20250425154908345

1.4 交叉熵损失(Cross-Entropy)

​ 衡量预测概率 y^\hat{y}y^ 与真实分布 yyy 的差异。
L(y,y^)=−∑i=1Nyilog⁡y^iL(y,\hat{y})=-\sum_{i=1}^Ny_i\log\hat{y}_i L(y,y^)=i=1Nyilogy^i
​ 简化:因 yyy 为 One-Hot 编码,实际计算仅需正确类别的概率:
L(y,y^)=−log⁡y^yL(y,\hat{y})=-\log\hat{y}_y L(y,y^)=logy^y
image-20250425154957107

梯度计算

​ 损失对 oio_ioi 的梯度为 y^i−yi\hat{y}_i - y_iy^iyi,即预测概率与真实概率的差值。

2 经典损失函数

​ 损失函数用于量化模型预测值(y^\hat{y}y^)与真实值(y^\hat{y}y^)的差异,指导参数优化。

​ 关键分析维度:

  • 函数形状(损失 vs 预测值)。
  • 梯度特性(更新幅度与方向)。
  • 数值稳定性(如可导性)。

2.1 均方误差(MSE / L2 Loss)

L(y,y^)=12(y−y^)2L(y,\hat{y})=\frac12(y-\hat{y})^2 L(y,y^)=21(yy^)2

​ 特性:

  • 函数曲线:二次函数(抛物线),对称于真实值点(下图蓝线)。
  • 梯度:线性增长(下图橙线),远离真实值时梯度大,靠近时梯度小。
  • 优点:处处可导,优化末期稳定。
  • 缺点:对离群值敏感(梯度过大可能导致震荡)。
image-20250425155745364

2.2 绝对值误差(MAE / L1 Loss)

L(y,y^)=∣y−y^∣L(y,\hat{y})=|y-\hat{y}| L(y,y^)=yy^

​ 特性:

  • 函数曲线:V 形折线(下图蓝线),在真实值处不可导。
  • 梯度:常数 ±1(下图橙线),远离真实值时更新力度恒定。
  • 优点:对离群值鲁棒(梯度不受距离影响)。
  • 缺点:零点不可导,优化末期可能震荡。
image-20250425155809233

2.3 Huber Loss(鲁棒损失)

L(y,y^)={12(y−y^)2if∣y−y^∣≤δδ∣y−y^∣−12δ2otherwiseL(y,\hat{y})=\begin{cases}\frac12(y-\hat{y})^2&\mathrm{if}|y-\hat{y}|\leq\delta\\\delta|y-\hat{y}|-\frac12\delta^2&\mathrm{otherwise}\end{cases} L(y,y^)={21(yy^)2δyy^21δ2ifyy^δotherwise

​ 特性:

  • 函数曲线:在阈值内为二次函数,阈值外为线性(下图蓝线)。
  • 梯度:阈值内线性变化,阈值外恒定(下图橙线)。
  • 优点:平衡 MSE 和 MAE,对离群值鲁棒且优化平滑。
  • 应用场景:回归任务中需兼顾稳定性和鲁棒性。
image-20250425155853094

3 图像分类数据集

​ Fashion MNIST数据集是传统MNIST手写数字数据集的替代品,由Zalando(一家欧洲的时尚科技公司)的研究部门创建并发布。与MNIST相比,Fashion MNIST具有以下特点37:

  • 更复杂的分类任务:包含10个类别的服装物品,比简单数字识别更具挑战性
  • 相同的图像规格:28×28像素的灰度图像,训练集60000张,测试集10000张
  • 现代相关性:相比1980年代的MNIST,Fashion MNIST更能反映现代计算机视觉任务

​ 数据集包含的10个类别分别是:T-shirt/top(T恤)、Trouser(裤子)、Pullover(套衫)、Dress(连衣裙)、Coat(外套)、Sandal(凉鞋)、Shirt(衬衫)、Sneaker(运动鞋)、Bag(包)和Ankle boot(短靴)。

3.1 读取数据集

  1. 我们可以通过框架中的内置函数将Fashion-MNIST数据集下载并读取到内存中。

    训练集和测试集分别包含60000和10000张图像。 测试数据集不会用于训练,只用于评估模型性能。

    import torch
    import torchvision
    from torch.utils import data
    from torchvision import transforms
    from d2l import torch as d2ld2l.use_svg_display()# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式,
    # 并除以255使得所有像素的数值均在0~1之间
    trans = transforms.ToTensor()
    mnist_train = torchvision.datasets.FashionMNIST(root="./data", train=True, transform=trans, download=True)
    mnist_test = torchvision.datasets.FashionMNIST(root="./data", train=False, transform=trans, download=True)# 训练集和测试集大小    
    len(mnist_train), len(mnist_test)
    
    image-20250715224932516
  2. 每个输入图像的高度和宽度均为28像素。 数据集由灰度图像组成,其通道数为1。

    mnist_train[0][0].shape
    
    image-20250715225517487
  3. 以下函数用于

    • 在数字标签索引及其文本名称之间进行转换。
    • 可视化这些样本。
    def get_fashion_mnist_labels(labels):  #@save"""返回Fashion-MNIST数据集的文本标签"""text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat','sandal', 'shirt', 'sneaker', 'bag', 'ankle boot']return [text_labels[int(i)] for i in labels]def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  #@save"""绘制图像列表"""figsize = (num_cols * scale, num_rows * scale)_, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)axes = axes.flatten()for i, (ax, img) in enumerate(zip(axes, imgs)):if torch.is_tensor(img):# 图片张量ax.imshow(img.numpy())else:# PIL图片ax.imshow(img)ax.axes.get_xaxis().set_visible(False)ax.axes.get_yaxis().set_visible(False)if titles:ax.set_title(titles[i])return axes
    
  4. 以下是训练数据集中前几个样本的图像及其相应的标签。

    X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
    show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y));
    
    image-20250715225725128

3.2 读取小批量

  1. 在每次迭代中,数据加载器每次都会读取一小批量数据,大小为batch_size。 通过内置数据迭代器,我们可以随机打乱了所有样本,从而无偏见地读取小批量。
batch_size = 256def get_dataloader_workers():  #@save"""使用4个进程来读取数据"""return 4train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,num_workers=get_dataloader_workers())timer = d2l.Timer()
for X, y in train_iter:continue
f'{timer.stop():.2f} sec'  # 读取所需要的时间
image-20250715225955738
  1. 定义load_data_fashion_mnist函数,用于获取和读取Fashion-MNIST数据集。 这个函数返回训练集和验证集的数据迭代器。 此外,这个函数还接受一个可选参数resize,用来将图像大小调整为另一种形状。

    通过指定resize参数来测试load_data_fashion_mnist函数的图像大小调整功能。

    def load_data_fashion_mnist(batch_size, resize=None):  #@save"""下载Fashion-MNIST数据集,然后将其加载到内存中"""trans = [transforms.ToTensor()]if resize:trans.insert(0, transforms.Resize(resize))trans = transforms.Compose(trans)mnist_train = torchvision.datasets.FashionMNIST(root="../data", train=True, transform=trans, download=True)mnist_test = torchvision.datasets.FashionMNIST(root="../data", train=False, transform=trans, download=True)return (data.DataLoader(mnist_train, batch_size, shuffle=True,num_workers=get_dataloader_workers()),data.DataLoader(mnist_test, batch_size, shuffle=False,num_workers=get_dataloader_workers()))train_iter, test_iter = load_data_fashion_mnist(32, resize=64)
    for X, y in train_iter:print(X.shape, X.dtype, y.shape, y.dtype)break
    
    image-20250715230252938

4 softmax回归的简洁实现

  1. 初始化模型参数

    softmax回归的输出层是一个全连接层。 因此,只需在Sequential中添加一个带有10个输出的全连接层。 同样,在这里Sequential并不是必要的, 但它是实现深度模型的基础。 我们仍然以均值0和标准差0.01随机初始化权重。

    import torch
    from torch import nn
    from d2l import torch as d2lbatch_size = 256
    train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)# PyTorch不会隐式地调整输入的形状。因此,
    # 我们在线性层前定义了展平层(flatten),来调整网络输入的形状
    net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))def init_weights(m):if type(m) == nn.Linear:nn.init.normal_(m.weight, std=0.01)net.apply(init_weights);
    
  2. 使用内置交叉熵损失函数

    loss = nn.CrossEntropyLoss(reduction='none')
    
  3. 使用优化算法 SGD

    使用学习率为0.1的小批量随机梯度下降作为优化算法。

    trainer = torch.optim.SGD(net.parameters(), lr=0.1)
    
  4. 训练

    num_epochs = 10
    d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
    
    image-20250715231426816
http://www.dtcms.com/wzjs/338125.html

相关文章:

  • wordpress评论刷新查看seo排名技巧
  • 株洲网站建设百度风云榜小说排行榜历届榜单
  • 长春 房地产网站建设情感式软文广告
  • 地方志网站群建设深圳新闻最新事件
  • 青海省建设网站企业免费建站哪个网站最好
  • 旅游网站网页设计代码成都今天宣布的最新疫情消息
  • 建筑网站推荐知乎如何检测网站是否安全
  • 嘉兴网站建设与管理专业怎么制作公司网站
  • 做货代的要注册哪种物流网站杭州排名优化公司电话
  • 创新的成都 网站建设网站推广建设
  • 青岛网站域名备案建站平台哪家好
  • 经典网站百度手机快速排名点击软件
  • 贵州做网站找谁自媒体发稿
  • 文化馆的网站怎么建设推荐6个免费国外自媒体平台
  • 美橙极速建站系统营销网站
  • 海口模板建站系统策划公司
  • 国外大气的网站sem竞价推广
  • 广州公共资源建设工程交易中心网站推广品牌的方法
  • 阿里云建站数据库用什么免费手机网页制作
  • 人才招聘类网站开发文档沈阳百度快照优化公司
  • 山东省建设业协会网站百度怎么收录网站
  • 手机端网站建设步骤百度seo是啥意思
  • 推进政府门户网站建设的意义深圳seo公司助力网络营销飞跃
  • 网站顶部地图代码怎么做百度投放广告流程
  • 网站 站外链接sns营销
  • 网站建设成功案例方案友情链接交换群
  • 电子商务网站系统建设进度安排怎么做网站广告
  • 曲靖手机网站建设竞价托管哪家效果好
  • 宁波网站建设最好的是哪家域名检测查询
  • 玉田网站建设热搜榜排名今日