Iterative loop of ML development|机器学习的迭代发展
-----------------------------------------------------------------------------------------------
这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!
-----------------------------------------------------------------------------------------------
一、机器学习迭代发展过程
这张图片展示了机器学习(ML)开发的迭代循环过程。循环包括三个主要步骤:
-
选择架构(模型、数据等):确定模型类型和准备数据。
-
训练模型:使用选定的架构和数据来训练模型。
-
诊断(偏差、方差和错误分析):评估模型性能,识别问题。
这个循环是迭代的,意味着在诊断后可能需要返回到选择架构的步骤进行调整。
例子:建立一个垃圾邮件分类器
1. 垃圾邮件分类示例
左边的邮件:
-
发件人:cheapsales@buystufffromme.com,这是一个可能看起来不太可信的域名,常用于垃圾邮件发送者。
-
收件人:Andrew Ng,可能是一个真实存在的收件人。
-
主题:Buy now!,使用了紧迫性的语言,试图促使收件人立即行动。
-
内容:邮件内容提供了一些商品的促销信息,如“Rolex w4tches - $100”(故意拼写错误以规避过滤),“Med1cine (any kind) - £50”(同样使用了数字和字母的混合拼写),以及“Also low cost MOrgages available.”(拼写错误)。这些内容通常与垃圾邮件相关,因为它们试图通过低价吸引收件人购买商品或服务。
右边的邮件:
-
发件人:Alfred Ng,看起来像是一个个人名字,可能是收件人的熟人。
-
收件人:Andrew Ng,与左边邮件相同。
-
主题:Christmas dates?,这是一个询问性质的主题,与个人交流相关。
-
内容:邮件内容是关于圣诞节计划的个人交流,提到了与家人的对话和具体的会面日期(Dec 22),这表明邮件是私人和非商业性质的。
这两封邮件的对比展示了垃圾邮件通常包含促销信息、拼写错误和紧迫性的语言,而非垃圾邮件则更可能是个人交流和询问。
2. 构建垃圾邮件分类器
这张图片详细说明了如何构建一个垃圾邮件分类器的过程,主要通过以下几个步骤:
-
监督学习:这是一个机器学习的方法,其中模型通过已标记的数据集进行训练,以学习如何对新的数据进行分类。在这个例子中,x 代表电子邮件的特征,而 y 是一个标签,表示邮件是垃圾邮件(1)还是非垃圾邮件(0)。
-
特征提取:特征是用于训练模型的输入数据。在这个案例中,特征是从电子邮件中提取的词汇。具体来说,选择了最常用的10,000个单词作为特征,这些单词用于构建特征向量 x1,x2,…,x10,000。
-
特征向量:图片中展示了一个特征向量 x 的示例。这个向量是一个包含10,000个元素的向量,每个元素对应一个特定的单词。如果某个单词在邮件中出现,则对应的元素值为1;如果没有出现,则为0。例如,单词 "andrew" 和 "deal" 在邮件中出现了,所以它们对应的特征值为1。
-
邮件内容分析:右侧展示了一封电子邮件的内容,其中一些单词被标记,这些单词在特征向量中对应的位置会有值。例如,"buy" 和 "deal" 在邮件中出现了,所以在特征向量中对应的位置会有值。
通过这种方式,每封电子邮件都可以被转换成一个特征向量,然后这个向量可以被用于训练一个分类器,以识别未来的邮件是否为垃圾邮件。
3. 少垃圾邮件分类器错误的方法
这张图片提供了减少垃圾邮件分类器错误的几种方法:
-
收集更多数据,例如通过“Honeypot”项目。
-
基于电子邮件路由(从邮件头)开发更复杂的特征。
-
从电子邮件正文定义更复杂的特征,例如将“discounting”和“discount”视为同一个词。
-
设计算法来检测拼写错误,例如识别“w4tches”、“med1cine”和“m0rtgage”。
-----------------------------------------------------------------------------------------------
这是我在我的网站中截取的文章,有更多的文章欢迎来访问我自己的博客网站rn.berlinlian.cn,这里还有很多有关计算机的知识,欢迎进行留言或者来我的网站进行留言!!!
-----------------------------------------------------------------------------------------------