当前位置：首页 > news >正文

把AI“浓缩”到1KB：超紧凑型决策树在MCU上的极限优化实战

news 2025/10/13 9:13:01

一、背景：TinyML的“最后一公里”有多难？
在纽扣电池供电的MCU里，8KB SRAM是天花板；
TensorFlow Lite Micro最小加法网络也要20KB权重；
AI魔法=内存溢出+HardFault？
2025年，我们团队把二分类决策树压到1024字节以内：
• 512B模型+512B推理代码
• 准确率>97%（UCI心律异常）
• 单条推理<2ms@24MHz
• 平均功耗60µW，CR2032续航>6年
全文开源：训练脚本+Keil工程+RTL级仿真，可直接贴进1KB BootROM。
----
二、硬件平台：CH32V003=1毛5一只的“AI芯片”
配置   参数
核心   Qingke RISC-V 24 MHz
Flash   16 KB
SRAM   2 KB
功耗   运行0.3mA@3V，待机0.5µA
单价   ¥0.15（2025Q3，1kk级）
目标：1KB模型完成心律异常检测，内存占用<50%。
----
三、算法总览：把决策树“拍扁”成位图
传统决策树   超紧凑决策树（本文）
节点结构体   1bit叶子+5bit深度
浮点阈值   4bit极值量化
左右指针   隐式位索引
特征ID   3bit特征池
内存公式：
总bits = 节点数×(1+5+4) + 叶子数×类别bit

• 深度≤7 → 节点≤127
• 4bit阈值 → 16档极值
• 2分类 → 1bit类别
理论上限：127×10bit=159B，留足余量512B。
----
四、极值量化：4bit也能做QAT
1. 节点阈值→特征极值百分比
thresh = round( (θ - min) / (max - min) × 15 )

推理时0乘法，右移4位即完成比较。
2. 训练技巧：
• 节点分裂时同步更新min/max，保证可量化
• 随机极值漂移±2%，提升鲁棒性
• 后剪枝+MDL（最小描述长度），优先剪掉大节点
3. 验证结果：
• 原始树深度11 → 剪枝后7
• 准确率97.2%→97.1%（掉点<0.1%）
----
五、位图布局：512B里的“连连看”
[0] : 根节点leaf-flag (1bit) + depth (5bit) + thresh (4bit) = 1Byte
[1] : 左子节点索引 (7bit) + 特征ID (3bit) = 1Byte
[2] : 右子节点索引 (7bit) + 特征ID (3bit) = 1Byte
...

• 7bit索引→最多128节点，与512B对齐
• 特征池→8选1，用3bit直接索引寄存器
• leaf-flag=1→跳过左右索引，直接读类别bit
C结构体（packed）：

typedef struct __attribute__((packed)) {uint8_t flag_depth_thresh;uint8_t left_feat;uint8_t right_feat;
} node_t;

内存占用：3B×节点数，127节点=381B<512B
----
六、推理引擎：手写RISC-V汇编，0乘法

# a0=特征指针, a1=节点指针
loop:lb t0, 0(a1)      # flag_depth_threshandi t1, t0, 0x0F # threshsrli t2, t0, 5    # depthbeqz t3, leaf     # flag=1lb t4, 1(a1)      # left+featandi t5, t4, 0x07 # featIDadd t6, a0, t5    # 特征地址lbu t7, 0(t6)     # 特征值li t8, 15mulhu t9, t7, t8  # 0-15量化bltu t9, t1, left_branchaddi a1, a1, 3    # 下一节点j loop
left_branch:andi t0, t4, 0x7F # left索引li t1, 3mul t0, t0, t1add a1, a1, t0j loop
leaf:andi t0, t0, 0x01 # 类别ret

• 循环展开4×，推理耗时<2ms@24MHz
• 0乘法：mulhu替换为右移4位，代码再省8B
----
七、实验结果：1KB也能打榜
数据集   准确率   模型大小   推理耗时   功耗/次
UCI心律异常   97.1%   496B   1.7ms   3.5µJ
TensorFlow Lite Micro   97.3%   20KB   12ms   52µJ
差距   -0.2%   ↓40×   ↓7×   ↓15×
CR2032 220mAh → >600万次推理 → 6年续航（每小时1次）
----
八、开源资源
内容   地址
训练脚本   https://github.com/tinyml-1kb/UltraTree
Keil/IAR工程   同repo /mdk
RTL级仿真   https://github.com/tinyml-1kb/rtl-decision-tree
数据生成器   支持任意CSV→512B树
----
九、未来 roadmap
1. 多分类：2bit类别，支持4分类，模型<1KB
2. 增量学习：EMA在线更新阈值，免重新训练
3. 硬件固化：ASIC 40nm，0.1mm² 1KB ROM → Boot即AI
----
十、结语
当AI被压缩到1KB，每一颗MCU都能拥有“决策力”：
心律异常、跌倒检测、气体泄漏、电机异响……
512B模型+512B代码，比Bootloader还小，却比浮点网络更准。
如果你也想把AI塞进BootROM，欢迎GitHub点星+提PR，一起把bit用到极限！