当前位置: 首页 > news >正文

HarvardX TinyML小笔记2(番外3:数据工程)

课程链接:Course | edX

数据工程其实就是做数据集,这东西没有太多技术含量,但是可以说是决定ML成败的关键一环。毕竟有80%的时间耗费都是在高质量的数据集上。

数据决定模型上限,算法与工程仅决定逼近上限的程度。

整体步骤大概就是确定需求,收集,提炼,维持。流程倒是不难理解,首先明确需要什么样的数据集,然后用多种方式去收集,之后对数据处理验证,最后保管数据。

收集数据集的时候要注意开源协议,分析能不能使用。

数据来源的四种方式:传感器,众包,产品用户,付费用户。

总之好数据集的创建很麻烦。。。

列了几个可以直接用的数据集,Common Voice,COCO,ImageNet等等。后面有机会再看吧。

简单介绍了一下Google的Speech Commands。

Speech Commands 

https://arxiv.org/pdf/1804.03209.pdf

  • What are Speech Commands?
  • What was People’s motivation behind building Speech Commands?
  • How is Keyword Spotting different from traditional speech recognition models? 
  • What are the important metrics in speech recognition for KWS?

之后介绍了一个Web的语音收集平台,Common Voice,都是白嫖很多自愿者。。。

主页:https://commonvoice.mozilla.org/

然后说了下如何复用已有的数据集。

最后还是老生常谈的数码平权,消除偏见。有一说一,不管实际如何,起码美国的学校对这方面还是很重视的。确实未来AI时代,一些细小的偏见都可能对人类社会带来深远影响。

最后还是说明,如果数据集选的不好,就算在程序中训练的准确率再高,程序可能也有问题。

So just because your Colab says you've got a certain accuracy does not mean that it's actually doing its job well from a TinyML application standpoint.

最后的总结,其实看这一篇就够了:Course | edX

http://www.dtcms.com/a/362115.html

相关文章:

  • Node.js版本管理工具 || 全配置安装
  • Claude AI 因编写勒索软件和开展勒索活动而被滥用
  • Agent落地元年:谁在成为最坚实的土壤?
  • 【前端】跨域
  • 懒加载详细讲解
  • 在Linux系统上第一次创建java项目并运行
  • `[特殊字符]LeetCode每日一题 1792. 最大平均通过率(打卡第一天)`
  • 在 React Native 层禁止 iOS 左滑返回(手势返回/手势退出)
  • Unity 串口通讯2 硬件SDK 开发[数据监听,按键监听]
  • 人工智能——课程考核
  • Python OpenCV图像处理与深度学习:Python OpenCV图像几何变换入门
  • 线程池发生了异常该怎么处理?
  • Groovy 的核心语法
  • 计算机视觉与深度学习 | 传统图像处理技术的未来发展前景分析
  • 算法练习——169.多数元素
  • 焦耳热技术助力顶刊研究:薄层质子交换膜实现高效水电解制氢
  • 深入理解Java虚拟机:JVM高级特性与最佳实践(第3版)第八章知识点问答(18题)
  • 在工业质检中,机器视觉与人工检测的决策依据
  • Java类加载机制
  • 亚马逊云代理商:如何选择适合的AWS EC2实例类型?
  • ARM-SPI屏幕案例
  • 1. 叙述与命题
  • 【开题答辩全过程】以 基于JSP的养生网站设计与实现为例,包含答辩的问题和答案
  • 在JAVA中Mybatis的使用
  • GitHub每日最火火火项目(9.1)
  • TDengine 日期时间函数 DAYOFWEEK 使用手册
  • shell编程基础入门-3
  • 人工势场法(APF)路径规划 MATLAB
  • 战略进阶——解读92页培训_战略+概述与基本框架麦肯锡【附全文阅读】
  • 一个好的智能体框架应该是什么样子