[Column#187] 10data_struct | IP速查表 | 协议TCPUDP | DeepSeek-OCR
EP187: 为什么 DeepSeek-OCR 如此重要?
告别低测试覆盖率和缓慢的 QA 周期(赞助)

当在发布前测试的用户流程少于 80% 时,bug 就会溜出去。然而,对于任何团队来说,获得这种覆盖率(并保持在那里)都是困难且昂贵的。
QA Wolf 的 AI 原生解决方案为 Web 和移动应用提供大容量、高速度的测试覆盖,将我们组织的 QA 周期缩短至几分钟。
他们可以为我们提供:
- 在数周内实现 80% 的自动化端到端测试覆盖率——而不是数年
- 无限并行测试运行
- 24 小时维护和按需测试创建
- 零不稳定性,有保证
好处是什么?不再需要手动端到端测试。不再有缓慢的 QA 周期。不再有 bug 进入生产环境。
使用 QA Wolf,Drata 的工程师团队实现了 4 倍多的测试用例和 86% 更快的 QA 周期。
本周系统设计复习:
- 我们每天使用的 10 个关键数据结构
- 每个工程师都应该知道的 IP 地址速查表
- 哪些协议运行在 TCP 和 UDP 上
- 为什么 DeepSeek-OCR 如此重要?
我们每天使用的 10 个关键数据结构

- 列表(list):保存我们的 Twitter 动态
- 栈(stack):支持文字编辑器的撤销/重做
- 队列(queue):保存打印机作业,或在游戏中发送用户操作
- 哈希表(hash table):缓存系统
- 数组(Array):数学运算
- 堆(heap):任务调度
- 树(tree):保存 HTML 文档,或用于 AI 决策
- 后缀树(suffix tree):在文档中搜索字符串
- 图(graph):用于跟踪好友关系或路径查找
- R树(r-tree):用于
查找最近邻 - 顶点缓冲区(vertex buffer):用于将数据发送到
GPU 进行渲染
每个工程师都应该知道的 IP 地址速查表

哪些协议运行在 TCP 和 UDP 上
通过互联网发送的每条消息都有两层通信,一层承载数据(传输层),一层定义数据的含义(应用层)。TCP 和 UDP 位于传输层,但它们服务于完全不同的目的。

TCP 是面向连接的。 它保证传递、维护顺序,并在数据包丢失时处理重传。
-
HTTP 运行在 TCP 上。 浏览器打开一个 TCP 连接,发送 HTTP 请求,等待 HTTP 响应,然后关闭连接(或为后续请求保持连接)。我们加载过的每个网页都使用了这种模式。
-
HTTPS 在 TCP 上添加 TLS。 TCP 连接首先发生。然后是 TLS 握手,包括公钥交换、会话密钥协商,最后是加密数据传输。
-
SMTP 使用 TCP 进行电子邮件传输。 消息通过 TCP 连接从发送方流向 SMTP 服务器再到接收方。
电子邮件不能承受传输中途丢失数据的风险,因此 TCP 的可靠性至关重要。
UDP 是无连接的。 没有握手。没有保证传递。没有顺序保留。只是将数据请求和响应发送到网络中,希望它们能到达。听起来很混乱,但它很快。
HTTP/3 运行在 QUIC 上,QUIC 使用 UDP。 这似乎是倒退的,直到我们意识到 QUIC 在 UDP 内部重新实现了 TCP 的可靠性特性,但性能更好。一个连接上的多个流。内置 TLS 1.3
更快的连接建立。图中编号的流显示了不会相互阻塞的并行数据流。
为什么 DeepSeek-OCR 如此重要?
专栏传送:[DeepOCR] VLLM推理运行器 | eg处理单个图像全流程
现有的 LLM 在处理长输入时遇到困难,因为它们只能处理固定数量的 token(称为上下文窗口),并且随着输入变长,注意力成本会快速增长。
DeepSeek-OCR 采用了一种新方法。
- 它不是将长上下文直接发送到 LLM,而是将其
转换为图像,将该图像压缩为视觉 token,然后将这些 token 传递给 LLM。
更少的 token 导致注意力机制的计算成本更低,有效上下文窗口更大。这使得聊天机器人和文档模型更强大、更高效。

DeepSeek-OCR 是如何构建的?
该系统有两个主要部分:
-
编码器:它处理文本图像,提取视觉特征,并将它们压缩成少量视觉 token。
-
解码器:一个专家混合语言模型,读取这些 token 并一次生成一个 token 的文本,类似于标准的仅解码器 transformer。
何时使用它?
DeepSeek-OCR 表明,可以使用视觉表示有效地压缩文本。
它对于处理超出标准上下文限制的超长文档特别有用。我们可以将它用于上下文压缩、标准 OCR 任务或深度解析,例如将表格和复杂布局转换为文本。
摘要:
- 本文探讨了QA自动化工具QA Wolf如何提升测试效率,并分享了系统设计关键知识。QA Wolf能快速实现80%端到端测试覆盖率,大幅缩短QA周期。
- 文章还梳理了10种常用数据结构(如哈希表、树)的应用场景
- 以及TCP/UDP协议差异(
HTTP基于TCP,HTTP/3基于UDP的QUIC) - 最后介绍了DeepSeek-OCR的创新:
将长文本转为图像token处理,突破传统LLM的上下文限制,适用于超长文档解析和OCR任务,显著降低计算成本。
