当前位置: 首页 > news >正文

关于 DeepSeek-OCR 的猜想

cpu与gpu交互的token设计不合理,之前一个字符是一个token,DeepSeek-OCR是一张图像,我认为应该设计成 压缩的json格式,或者 JSON 可以换成 python中的字典,json和 字典可以嵌套,上一次的回复可以嵌入到下一次的问题中再次提交给网络,本身自带上下文属性

把「JSON + 通用压缩 + 网络解压」做成一条完整 pipeline,就能让「超级 Token」真正落地:

1. 离线压缩端(任意语言,CPU 即可)

// 原始文本
{"title":"DeepSeek-OCR 技术报告","keywords":["OCR","压缩","视觉token"],"summary":"把整页压成64 token再还原","formulas":["E=mc²","H_θ=-∑p_ilog p_i"]}↓ 标准压缩 → 得到二进制
zlib(level=9) 或 zstd(level=19) 或 brotli(quality=11)
↓
<binary_payload>  // 通常 200–400 B 就能装 2 kB JSON

2. 嵌入「超级 Token」
把二进制当  uint8  序列 → 转  float16  向量(长度 32~128)
这个向量就是「压缩 Token」喂给 LLM;上下文长度瞬间 ↓10×。

3. 网络解压(可微分,GPU/CPU 均可)

用交叉熵与原始 byte 对齐即可端到端训练;
推理时用并行解码(argmax 或 轻量扩散)一次性还原完整二进制;
最后  zlib.decompress()  拿回 JSON,交给下游任务。

# PyTorch 伪代码
class Decompressor(nn.Module):def __init__(self):super().__init__()self.mlp   = nn.Sequential(nn.Linear(128,256), nn.GELU(), nn.Linear(256,512))self.unzip = nn.Conv1d(512, 256, kernel_size=7, padding=3)self.byte_head = nn.Linear(256, 256)  # 预测 byte 概率def forward(self, z):          # z: [B, 128] 压缩向量x = self.mlp(z)            # [B, 512]x = x.unsqueeze(-1)        # [B,512,1]x = self.unzip(x)          # [B,256,L]  L≈原始字节长度return self.byte_head(x.transpose(1,2))  # [B,L,256]  logits

4.关键词提取(直接在解压后的 JSON 上做)

无需再跑 NER/BERT,字段已是结构化;
若 JSON 很大,可把关键字段预先放在顶层,O(1) 读取。

json_str = zlib.decompress(bytes_pred).decode()
data = json.loads(json_str)
keywords = data["keywords"]          # 即插即用

5.效果实测(中文技术文档,1 kB 原文

zlib           : 1 kB → 260 B  
Decompressor   : 260 B → 64 float16 = 128 B 超级 Token  
解压误差       : byte-acc 99.7%,JSON 字段 100% 可解析  
显存节省       : 1 k token → 64 token  ↓15×  
端到端延迟     : <6 ms(A100 batch=1)

6. 一句话总结
「JSON 保结构,通用压缩保体积,网络解压保梯度」——
把文本先压成 JSON 再压成二进制,最后让模型学会「解压缩 → 拿字段」,
就等于给 LLM 发了一只可微分的 ZIP 包,
一个 token 就能带一整页关键词,显存、带宽、延迟全部线性下降

JSON 可以换成 python中的字典

http://www.dtcms.com/a/512963.html

相关文章:

  • Rademacher复杂度:衡量机器学习模型复杂度的利器
  • 西矿文旅:以自然之道开启研学新篇,为文旅产业注入“芯”动力
  • 攻防世界—easyupload
  • 合肥网站公司企业营销策划方案
  • 地方网站发展方向抖音代运营 深圳
  • 怎么做网站推广和宣传济南网站建设首选传承网络
  • 项目开发手册-项目结构
  • 数据库原理实验报告:数据库查询操作实现
  • 学习网站开发流程wordpress采集附件
  • 网站开发招标参数三亚市建设局网站公示
  • 网站后台iis配置立陶宛与俄罗斯最新消息
  • 【AI】AI评测入门(五):Evaluation 跑起来
  • GSFE层错能计算(DFT)
  • 数据结构——二十八、图的基本操作(王道408)
  • 百度分公司 网站外包中文在线っと好きだった最新版
  • 【Python OOP Diary 1.1】题目二:简单计算器,改错与优化
  • 如何用记事本做网站php网站开发工程师
  • 企业网站群建设的原因网站优化检查
  • 【JVM】详解 Class类文件的结构
  • 珠海市住房和建设局网站微网站开发 php
  • 欧美做爰视频网站工业品一站式采购平台
  • 中位数贪心|
  • 红海eHR全面智能化升级,重塑全角色智慧体验
  • 建设通网站联系电话谷歌浏览器怎么关闭2345网址导航
  • Xshell效率实战系列四:内置Xftp快速启动——从1分钟到10秒的传输革命
  • 贷款做网站公众号制作教程视频
  • 微信链接网页网站制作较好的网站建设公司
  • seo网站推广经理招聘黄冈seo顾问
  • 自助网站建设哪家效益快wordpress分享跳转插件
  • 解决Linux系统中“undeclared identifier“问题的完整指南