吴恩达《AI for everyone》第二周课程笔记
机器学习项目工作流程
以Echo/Alexa(语音识别AI)作为例子解释:
1. collect data 收集数据——人为找很多人说 Alexa,并录制音频;并且还会让一群人说其他词语,比如hello
2. train model 训练模型——用机器学习算法来训练A-B的映射
3. deploy model 实际部署模型——把这个AI模型放入智能音箱,然后把它交给一小群测试用户/一大群用户
**在以上三个步骤中,通常会有很多迭代,这意味着在实际操作中,你需要微调或调整模型(根据你的实际目的)**
数据科学项目工作流程
与机器学习不同,数据科学项目的输出通常是一组可执行的洞察,一组可能让你以不同方式做事的洞察。(可以用到实际的制造业的生产线中,比如烧制陶瓷的咖啡杯)
例子:优化一个销售漏斗
假设你运营一个销售咖啡杯的电子商务或在线购物网站
客户购买的流程:
visit website(浏览网页) ——product page(查看详细内容) —— shopping cart(加入购物车) —— checkout(下单)
数据科学项目的工作流程:
1. collect data 收集数据——你可能有一个数据集存储不同用户何时访问不同网页(IP地址,国家,尽可能多的获取数据)
2. analyze data 分析数据——比如,海外客户被国际运费吓跑了(进入付费页面却没有下单)?在某些国家,集中时间波动(午休等)?
3. suggest hypotheses/actions 提出假设和行动【根据这些数据,数据科学团队会有很多想法,或者多次迭代得到好的洞察,最终将这些洞察提炼为少量的假设】—— 关于什么可能进展顺利,什么可能进展不佳,少量的建议行动
一套循环体系,采取建议行动后,数据发生变化,重新收集数据,分析数据,得到建议,采取行动——优化生产线
名职能部门的数据应用建设
精准农业、制造业、营销、广告等
如何选择人工智能项目
三个原则(项目头脑风暴)
1. 考虑自动化任务而不是自动化工作岗位要有用的多
2. 商业价值等主要驱动因素是什么——有时找到AI解决方案或数据科学解决方案来增强这一点可能非常有价值
3. 您的业务中主要的痛点是什么——其中一些可以用Ai解决,有些则无法通过AI解决
也许你有很多可能的AI项目想法要做,但在承诺其中之一前,如何确保这真的是一个值得做的项目呢?
1. 为了确保项目可行,需要进行**技术尽职调查**——确保你希望构建的AI系统真的可行,可实现
1. can AI system meet desired performance 可能咨询Ai专家/阅读行业文献,关于AI系统是否真的能达到期待的性能水平
2. How much data is needed 需要多少数据才能达到这个期望的性能水平,你有办法获得那些数据嘛
3. Engineering timeline 工程时间线,试图弄清楚需要多长时间,以及需要多少人来构建你想要建立的系统
2. 为了确保项目有价值,需要进行**商业尽职调查**——确保你设想的项目对业务真的有价值【1、2现有的商业;3新的商业】可以构建电子表格财务模型定量估计价值
1. lower costs 降低成本创造价值——通过自动化一些任务,或者通过从系统中挤出更多效率
2. increase revenue 很多AI系统也能增加收入——比如,推动更多人在你的购物车中结账
3. Launch new product or business 构建一个AI系统帮助你推出新产品或新业务线
3. 伦理尽职调查(尽可能考虑这个)
AI项目启动:自建or购买——外包/内部(数据科学项目在内部完成的比机器学习项目更多)
建议:当有一个正在构建的行业标准解决方案的巨大力量时,你可能最好只是拥抱行业标准或拥抱别人的平台,而不是试图在内部完成所有事情。
我们都生活在一个资源有限、时间有限、数据有限、工程资源有限的世界中,所以我希望你能专注于这些资源在那些最独特并且对你的公司产生最大影响的项目上。
**识别那些有前景的AI项目,做好准备工作,然后放手去做**
人工智能团队协作机制
AI团队有两种数据:
1. 训练集——数据量更大
2. 测试集
人工智能团队技术工具
开源的机器学习工具/框架
- PyTorch
- TensorFlow
- Hugging Face
- PaddlePaddle
- Scikit-learn
- R
开源社区
- Arxiv
免费公开资源代码
- GItHub
比如搜索人脸识别软件:face recognition software on GitHub