当前位置：首页 > news >正文

基础分类模型及回归简介(一)

news 2025/7/15 12:21:56

一、先搞懂两个核心任务：分类和回归

咱们生活中总遇到要 “判断” 或 “预测” 的事：

数据挖掘里的 “有监督学习”，就像有老师带着你学：给你一堆带答案的习题（训练数据），学会后去做新题（测试数据）。

就像学生考试：

好的模型得能 “举一反三”（泛化能力强）。数据越多，模型越不容易学死；模型太复杂（比如背了 1000 道例题），但题目太少，也容易学死。

比如你想判断一个水果是不是苹果，会看：红不红？圆不圆？甜不甜？

朴素贝叶斯的思路就是：统计 “苹果通常是红的”“苹果通常是圆的” 这些概率，然后综合起来猜。

它有个 “天真” 的假设：认为这些特征没关系（比如 “红不红” 和 “圆不圆” 互不影响）。虽然简单，但实际用起来效果 often 不错，比如垃圾邮件过滤常用它。

思路超简单：“物以类聚”。

比如你新认识一个人，想知道他喜欢打篮球还是踢足球，就看他身边 5 个好朋友（k=5）里，多数人喜欢啥，就猜他也喜欢啥。

缺点是：如果朋友太多（训练数据量大），每次猜都要问遍所有人，累得慌（计算量大）。

就像玩 “你画我猜” 的游戏，一步一步问问题：

建决策树时，得先挑 “最有用的问题”（属性选择），比如先问 “颜色” 比先问 “有没有虫眼” 更能快速区分水果。

就像好多人排成队传递消息：

第一个人（输入层）看到特征（比如水果的颜色、大小），传给中间的人（隐层）；
中间的人加工后，再传给最后一个人（输出层），说出答案（是苹果还是橘子）。
多层感知机：中间多排几个人，就能解决复杂问题。比如 “异或” 问题（1 和 0 在一起是 1，0 和 0 在一起是 0），一层人搞不定，两层人就搞定了。
BP 神经网络：如果猜错了，就从最后一个人往前骂：“你怎么传错了！”（反向调整参数），直到传对为止。
激活函数：就像人的 “开关”，收到的消息够强才会传给下一个人。

比如在操场上，左边站一队男生，右边站一队女生，要画一条线把他们分开。

SVM 的思路是：找一条线，离两边最近的人都尽可能远（这样不容易踩线）。那些离线最近的人，就是 “支持向量”，线的位置全靠他们定。

适合人少的时候用（小样本），比如判断少量客户会不会违约，效果不错。

混淆矩阵：就像考试后的错题分析表：
1. TP：本来对的，模型也说对了（真对）；
2. FN：本来对的，模型说错了（漏判）；
3. FP：本来错的，模型说对了（误判）；
4. TN：本来错的，模型也说错了（真错）。
ROC 曲线：画一条线，越靠近左上角，说明模型越靠谱（少漏判、少误判）。