当前位置: 首页 > news >正文

机器学习算法-朴素贝叶斯

朴素贝叶斯分类器就是根据贝叶斯公式计算结果进行分类的模型,“朴素”指事件之间相互独立无影响. 例 如:有如下数据集:

Text        Category
A great game(一个伟大的比赛)Sports(体育运动)
The election was over(选举结束Not sports(不是体育运动)
Very clean match(没内幕的比赛)Sports(体育运动)
A clean but forgettable game(一场难以忘记的比赛)Sports(体育运动)
It was a close election(这是一场势均力敌的选举)Not sports(不是体育运动)

求:“A very close game” 是体育运动的概率?数学上表示为 P(Sports | a very close game). 根据贝叶斯 定理,是运动的概率可以表示为:

不是运动概率可以表示为:

概率更大者即为分类结果. 由于分母相同,即比较分子谁更大即可.

我们只需统计”A very close game“ 多 少次出现在Sports类别中,就可以计算出上述两个概率. 但是”A very close game“ 并没有出现在数据集 中,所以这个概率为0,要解决这个问题,就假设每个句子的单词出现都与其它单词无关(事件独立即朴 素的含义),所以,P(a very close game)可以写成

统计出“a", "very", "close", "game"出现在"Sports"类别中的概率,就能算出其所属的类别. 具体计算过程 如下:

        第一步:计算总词频:Sports类别词语总数11,Not Sports类别词语总数9,词语总数14(去重之后的单词数量)

        第二步:计算每个类别的先验概率

# Sports和Not Sports概率

P(Sports) = 3 / 5 = 0.6

P(Not Sports) = 2 / 5 = 0.4

# Sports条件下各个词语概率

P(a | Sports) = (2 + 1) / (11 + 14) = 0.12

P(very | Sports) = (1 + 1) / (11 + 14) = 0.08

P(close | Sports) = (0 + 1) / (11 + 14) = 0.04

P(game | Sports) = (2 + 1) / (11 + 14) = 0.12

# Not Sports条件下各个词语概率

P(a | Not Sports) = (1 + 1) / (9 + 14) = 0.087

P(very | Not Sports) = (0 + 1) / (9 + 14) = 0.043

P(close | Not Sports) = (1 + 1) / (9 + 14) =  = 0.087

P(game | Not Sports) = (0 + 1) / (9 + 14) = 0.043

其中,分子部分加1,是为了避免分子为0的情况;分母部分都加了词语总数14,是为了避免分子增 大的情况下计算结果超过1的可能.

第三步:将先验概率带入贝叶斯定理,计算概率: 是体育运动的概率:

不是体育运动的概率:

分类结果:P(Sports) = 0.000027648 , P(Not Sports) = 0.0000055984, 是体育运动

http://www.dtcms.com/a/348168.html

相关文章:

  • k8sday16调度器
  • Java全栈工程师面试实战:从基础到微服务的深度解析
  • 【运维进阶】高可用和负载均衡技术
  • 港口集装箱编号识别误识率↓79%!陌讯多模态融合算法落地优化
  • 静电服漏检率↓79%!陌讯多模态识别算法在智慧安检的实战解析
  • 下料口堵塞误报率↓79%!陌讯多模态融合算法在工业物料输送的实战解析
  • 电子厂静电释放检测误报率↓81%!陌讯多模态融合算法在安全生产监控的落地实践
  • 【Linux】Java线上问题,一分钟日志定位
  • 【C语言强化训练16天】--从基础到进阶的蜕变之旅:Day12
  • lanczos算法的核心——Ritz向量的计算(主要思想为反向映射)
  • 《一次高并发场景下疑难Bug的深度排查与复盘》
  • 基于Langchain框架的DeepSeek-v3+Faiss实现RAG知识问答系统(含完整代码)
  • 【股票数据API接口12】如何获取股票近年分红数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据
  • AI-调查研究-59-机器人 行业职业地图:发展路径、技能要求与薪资全解读
  • Android - 用Scrcpy 将手机投屏到Windows电脑上
  • [创业之路-567]:数字技术、数字产品、数字资产、数字货币、数字企业、数字经济、数字世界、数字人生、数字智能、数字生命
  • 第一个小项目java
  • Linux 软件编程(十)网络编程:网络协议,UDP 与 TCP 知识点
  • 逆光场景识别率↑76%!陌讯多模态融合算法在手机拍照识别的落地实践​
  • 【网络运维】Shell 脚本编程: for 循环与 select 循环
  • ARINC 825板卡的应用
  • vue-pure-admin页面引入和功能添加流程解析
  • Smooze Pro for mac 鼠标手势增强软件
  • 力扣【1277. 统计全为1的正方形子矩阵】——从暴力到最优的思考过程
  • 商超客流密度统计误差率↓35%!陌讯多模态融合算法在零售智慧运营的实战解析
  • 智慧零售商品识别误报率↓74%!陌讯多模态融合算法在自助结算场景的落地优化
  • Ubuntu24.04 安装 Zabbix
  • 使用UE5开发2.5D开放世界战略养成类游戏的硬件配置指南
  • IDM 下载失败排查指南:全面解析与解决方案
  • 马斯克宣布开源Grok 2.5:非商业许可引争议,模型需8×40GB GPU运行,Grok 3半年后开源