当前位置: 首页 > news >正文

李宏毅2023机器学习作业 HW02实操

ML2023Spring - HW02 相关信息:

1.任务目标(回归)

Phoneme Classification 音素分类(识别)

训练/测试数据大小:3429/857(2116794/527364 frames)每个 frames 25ms,相邻 frames 间隔 10ms,1s 可以划分出 100 个frames,单个 frames 最后被处理为 39 维的 MFCC (Mel Frequency Cepstral Coefficients)

Label:41,对应 phoneme

2.性能指标(Metric)

分类精度

3.数据解析

train_split.txt: 其中每一行对应一个训练数据,其所对应的文件在feat/train/中
train_labels.txt: 由训练数据和labels组成,格式为: filename labels。其中,label 为 frame 对应的 phoneme
test_split.txt: 其中每一行对应一个训练数据,其所对应的文件在feat/test/中
feat/train/{id}.pt 和 feat/test/{id}.pt: 音频对应的 MFCC w/ CMVN,维度为39,这些文件可以通过torch.load()直接导入,导入后的shape为(T, 39)。

4. Baselines

根据作业 PDF 中的提示:

Simple Baseline (0.49798)
运行所给的 sample code。
Medium Baseline (0.66440)
连接 n 个frames。
具体选择多少个 frames 呢?HW02 PDF 中给出的样例是 11 个,查询相关专业知识后有下表
注意到英文中 phoneme 的持续时间都小于 11 个frames(11*25=275ms)。你可以根据专业知识自行选择,比如说你想再联系前后两个 phoneme 的信息来做预测,那设置成 15 也可以,这些由你自己去确定,从实验中获得更好的选择。
增加网络的隐藏层。
下图是我一开始记录的一些实验结果,仅简单的增加了层数和神经元个数便达到了 Medium Baseline(最终记录的是 Kaggle 上的分数),你可以根据自己的情况更进一步的优化它。

Strong Baseline (0.74944)
在 BasicBlock() 中增加 batchnorm 和 dropout 层。

增大 concat_nframes。

5.个人完整代码分享

https://github.com/holyeyes8/HUNG-YI_LEE_Machine-Learning_Homework/blob/master/HW02.ipynb

可以在colab上面正常运行

5.1 数据准备

# !pip install --upgrade gdown# # Main link
# # 如果你已经从其他地方下载了数据集,则不需要执行该代码块
# !gdown --id '1qzCRnywKh30mTbWUEjXuNT2isOCAPdO1' --output libriphone.zip# !unzip -q libriphone.zip
# !ls libriphone
import os
!git clone https://oauth2:3EQxRxxHC8AwoQfojKpK@www.modelscope.cn/datasets/Datawhale/HW2-DNN-libriphone.git
os.chdir('./HW2-DNN-libriphone')
!unzip -q ml2023spring-hw2.zip

将libriphone目录移动到相应位置
在这里插入图片描述
在这里插入图片描述

5.2 运行结果

5.2.1 acc/train

在这里插入图片描述

5.2.2 acc/valid

在这里插入图片描述

5.3.3 lr

在这里插入图片描述

参考:
https://blog.csdn.net/weixin_42426841/article/details/129764858

http://www.dtcms.com/a/395659.html

相关文章:

  • 【C++实战㉜】深入C++动态内存分配:从理论到实战的进阶之路
  • 小鼠抗新冠病毒N蛋白IgG亚型抗体ELISA检测试剂盒
  • 安防监控中常见的报警类型有哪些?国标GB28181平台EasyGBS的报警能力解析
  • C++ 中 size_t 的用(用于跨平台编译)
  • C++ 拷贝构造函数调用时机
  • 手机镜头参数介绍
  • 区块链技术之《(1)—概述》
  • 复盘与导出工具最新版V31.0版本更新---彻底修复卡死闪退bug,盘中实时丝滑
  • 深入理解JVM类加载与垃圾回收机制
  • Ethernet/IP转ProfiNet网关选型指南:欧姆龙PLC对接研祥工控机最佳实践
  • Java 面试高频手撕题清单
  • 【论文阅读】Long-VLA:释放视觉语言动作模型在机器人操作中的长时程能力
  • Python poplib 库全解析:POP3 邮件收取的完整指南
  • DanceTrack数据集介绍
  • 【无标题】话题学习笔记1,话题基本了解
  • 【论文阅读】OpenVLA:一个开源的视觉-语言-动作模型
  • 科技信息差(9.22)
  • Zotero中进行文献翻译【Windows11】【新版,目前没发现bug】
  • 单细胞数据分析:单细胞计数矩阵(Seurat)
  • Hyperf使用视图
  • React何时用函数组件(Hooks),何时用类组件?(错误边界用类组件Error Boundary)
  • VMware虚拟机ubuntu20.04共享文件夹突然无法使用
  • 流行AI工具的分类与比较
  • 哪些行业需要使用时序数据库?
  • PyTorch 神经网络工具箱简明笔记
  • Pytorch目录细查
  • VMware的Ubuntu与windows共享文件夹
  • RK3588-ubuntu server
  • EPLAN绘制安全回路核心步骤
  • 仁合医疗靠谱吗?——社会责任担当,科技赋能医疗