当前位置: 首页 > news >正文

[Column#187] 10data_struct | IP速查表 | 协议TCPUDP | DeepSeek-OCR

EP187: 为什么 DeepSeek-OCR 如此重要?

告别低测试覆盖率和缓慢的 QA 周期(赞助)

在这里插入图片描述

当在发布前测试的用户流程少于 80% 时,bug 就会溜出去。然而,对于任何团队来说,获得这种覆盖率(并保持在那里)都是困难且昂贵的。

QA Wolf 的 AI 原生解决方案为 Web 和移动应用提供大容量、高速度的测试覆盖,将我们组织的 QA 周期缩短至几分钟。

他们可以为我们提供:

  • 在数周内实现 80% 的自动化端到端测试覆盖率——而不是数年
  • 无限并行测试运行
  • 24 小时维护和按需测试创建
  • 零不稳定性,有保证

好处是什么?不再需要手动端到端测试。不再有缓慢的 QA 周期。不再有 bug 进入生产环境。

使用 QA Wolf,Drata 的工程师团队实现了 4 倍多的测试用例和 86% 更快的 QA 周期。


本周系统设计复习:

  • 我们每天使用的 10 个关键数据结构
  • 每个工程师都应该知道的 IP 地址速查表
  • 哪些协议运行在 TCP 和 UDP 上
  • 为什么 DeepSeek-OCR 如此重要?

我们每天使用的 10 个关键数据结构

在这里插入图片描述

  • 列表(list):保存我们的 Twitter 动态
  • 栈(stack):支持文字编辑器的撤销/重做
  • 队列(queue):保存打印机作业,或在游戏中发送用户操作
  • 哈希表(hash table):缓存系统
  • 数组(Array):数学运算
  • 堆(heap):任务调度
  • 树(tree):保存 HTML 文档,或用于 AI 决策
  • 后缀树(suffix tree):在文档中搜索字符串
  • 图(graph):用于跟踪好友关系或路径查找
  • R树(r-tree):用于查找最近邻
  • 顶点缓冲区(vertex buffer):用于将数据发送到 GPU 进行渲染

每个工程师都应该知道的 IP 地址速查表

在这里插入图片描述

哪些协议运行在 TCP 和 UDP 上

通过互联网发送的每条消息都有两层通信,一层承载数据(传输层),一层定义数据的含义(应用层)。TCP 和 UDP 位于传输层,但它们服务于完全不同的目的。

在这里插入图片描述

TCP 是面向连接的。 它保证传递、维护顺序,并在数据包丢失时处理重传

  • HTTP 运行在 TCP 上。 浏览器打开一个 TCP 连接,发送 HTTP 请求,等待 HTTP 响应,然后关闭连接(或为后续请求保持连接)。我们加载过的每个网页都使用了这种模式。

  • HTTPS 在 TCP 上添加 TLS。 TCP 连接首先发生。然后是 TLS 握手,包括公钥交换、会话密钥协商,最后是加密数据传输。

  • SMTP 使用 TCP 进行电子邮件传输。 消息通过 TCP 连接从发送方流向 SMTP 服务器再到接收方。电子邮件不能承受传输中途丢失数据的风险,因此 TCP 的可靠性至关重要。

UDP 是无连接的。 没有握手。没有保证传递。没有顺序保留。只是将数据请求和响应发送到网络中,希望它们能到达。听起来很混乱,但它很

HTTP/3 运行在 QUIC 上,QUIC 使用 UDP。 这似乎是倒退的,直到我们意识到 QUIC 在 UDP 内部重新实现了 TCP 的可靠性特性,但性能更好。一个连接上的多个流。内置 TLS 1.3

更快的连接建立。图中编号的流显示了不会相互阻塞的并行数据流


为什么 DeepSeek-OCR 如此重要?

专栏传送:[DeepOCR] VLLM推理运行器 | eg处理单个图像全流程

现有的 LLM 在处理长输入时遇到困难,因为它们只能处理固定数量的 token(称为上下文窗口),并且随着输入变长,注意力成本会快速增长

DeepSeek-OCR 采用了一种新方法。

  • 不是将长上下文直接发送到 LLM,而是将其转换为图像,将该图像压缩为视觉 token,然后将这些 token 传递给 LLM。

更少的 token 导致注意力机制的计算成本更低,有效上下文窗口更大。这使得聊天机器人和文档模型更强大、更高效。

在这里插入图片描述

DeepSeek-OCR 是如何构建的?

该系统有两个主要部分:

  • 编码器:它处理文本图像,提取视觉特征,并将它们压缩成少量视觉 token。

  • 解码器:一个专家混合语言模型,读取这些 token 并一次生成一个 token 的文本,类似于标准的仅解码器 transformer。

何时使用它?

DeepSeek-OCR 表明,可以使用视觉表示有效地压缩文本。

对于处理超出标准上下文限制的超长文档特别有用。我们可以将它用于上下文压缩、标准 OCR 任务或深度解析,例如将表格和复杂布局转换为文本。


摘要:

  • 本文探讨了QA自动化工具QA Wolf如何提升测试效率,并分享了系统设计关键知识。QA Wolf能快速实现80%端到端测试覆盖率,大幅缩短QA周期。
  • 文章还梳理了10种常用数据结构(如哈希表、树)的应用场景
  • 以及TCP/UDP协议差异(HTTP基于TCP,HTTP/3基于UDP的QUIC
  • 最后介绍了DeepSeek-OCR的创新:将长文本转为图像token处理,突破传统LLM的上下文限制,适用于超长文档解析和OCR任务,显著降低计算成本。
http://www.dtcms.com/a/601898.html

相关文章:

  • 生产级HMACSHA256签名与验签案例
  • 腾讯云服务器搭建网站漯河网站建设费用
  • docker部署开源监控软件hertzbeat
  • 上海网站网站建设工程公司简介范文大全
  • STM32CubeMx学习hal库
  • 在线确定性算法与自适应启发式在虚拟机动态整合中的竞争分析与性能优化
  • 企业网站建设费多少钱硬盘做免费嗳暧视频网站
  • 做图在哪个网站上找南京自助建站模板
  • 山东市网站建设中国林业网站群建设工程
  • 大白话浅析Windows 安全核心机制
  • 【OpenCV + VS】OpenCV 随机数绘图:如何在图像中绘制随机线条
  • 个人网站可以做商城吗泰安人才信息网官网
  • 网站开发提供图片加载速度建设工程施工合同示范文本2021
  • sward实战教程系列(2) - 创建第一个知识库
  • iOS 内存管理之 autoreleasePool
  • 北京沙河教做网站的山东省济南市莱芜区
  • 长沙建长沙建网站公司给wordpress程序提速
  • 多国语言编译库 | 适用于全球化开发的高效工具
  • C语言编译系统 | 如何高效构建和使用C语言编译系统
  • 手机建设银行网站首页网站开发app开发主营业务
  • 11月12日星期三今日早报简报微语报早读
  • 360水滴摄像头重新设置摄像头wifi
  • Notepad++ 编译 C 语言的使用方法与技巧
  • 编译C语言的软件 | 轻松高效的C语言编译工具介绍
  • 企业网站设计特点建设银行网站怎么打印明细
  • C语言练习题——判断水仙花数(0-100000)
  • 广州好的网站建设昆明微网站搭建哪家好
  • 找国内外贸公司的网站深圳自己做网站
  • 视频融合平台EasyCVR:云台控制与语音对讲赋能远程交互式视频监控新场景
  • 做设计私活的网站php网站建设费用