当前位置: 首页 > news >正文

网站词库怎么做网站备案的作用

网站词库怎么做,网站备案的作用,在网站建设中要注意的问题,手把手教你学网站建设背景开发环境说明问题排查过程 1. 添加请求头仍无效2. curl 请求对比3. IP 对比:确认是不同出口 问题原因分析:CDN 节点行为差异解决方案:使用 GET(streamTrue) 替代 HEAD 是否会有性能问题? 总结参考 最近在开发过程中遇到了一个…
  • 背景
  • 开发环境说明
  • 问题排查过程
    • 1. 添加请求头仍无效
    • 2. curl 请求对比
    • 3. IP 对比:确认是不同出口
  • 问题原因分析:CDN 节点行为差异
  • 解决方案:使用 GET(stream=True) 替代 HEAD
    • 是否会有性能问题?
  • 总结
  • 参考

最近在开发过程中遇到了一个让我颇为困惑的问题:我用 Python 的 requests.head() 方法请求一个 MP3 文件,想从响应头中获取 Content-MD5,但在 Docker 容器中却总是拿不到这个 header。更奇怪的是,偶尔还能拿到。这个诡异的行为一度让我手足无措,但经过一番研究,我终于找到了问题的原因。

背景

在一个音频处理相关的项目中,我需要验证远端 MP3 文件的完整性,最简单的方法就是请求文件的 Content-MD5 header。起初我使用的是如下代码:

import requestsresponse = requests.head(url)
md5 = response.headers.get("Content-MD5")

在前一天提交的时候明明已经跑通了,但第二天上来却发生了错误:response 报 200 状态,但 headers 中没有 Content-MD5

开发环境说明

项目是在 Windows 10 上进行开发,容器由 Docker Desktop 管理,代码所在文件夹被挂载映射到 Docker 容器中,代码运行在一个标准的 Python 容器中。

dev env

正是这个开发环境暴露了这个问题,但也对后续debug造成了一定的困扰。

问题排查过程

1. 添加请求头仍无效

出现这个问题,我的第一个反应是因为没有对 requests.head(url) 做处理,它默认的行为导致 requests 发出的报文可能有什么特征被服务端标记处理了。在打印它的报文头后,发现 request 的 headers 中是空的。

起初我怀疑是请求中缺少 User-Agent,所以将浏览器的 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/138.0.0.0 Safari/537.36 Edg/138.0.0.0 添加到 headers 中,结果是无效。

而我使用 curl -I 命令来请求,却能得到包含 “Content-MD5” 的 headers。我打印出curl的命令,发现它添加了 User-AgentAccept 等字段,于是尝试这样调用:

response = requests.head(url, headers={"User-Agent": "curl/7.88.1","Accept": "*/*"
})

然而并没有变化,Content-MD5 依旧缺失。这个现象真令人很纳闷,底层明明是相同的http请求报文,但得到的response却不相同。

2. curl 请求对比

在 Windows 下编辑的 python 代码,直接在docker中运行,结果是无效的;但我的 curl 命令执行是直接在 Windows 下执行的,结果是有效的。我是不是应该拉齐,在容器中执行 curl 命令看下呢?

接着我在 Docker 容器中使用 curl 工具请求:

curl -I "https://xxx.com/audio.mp3"

response 中没有 Content-MD5 字段。这下行为对齐了:同一个运行环境,同样的 http 请求,响应的 headers 是相同的。

3. IP 对比:确认是不同出口

至此,我只能想到 host 和 docker 容器二者的网络环境不同,导致了 response 的差异。

在 host 和 container 中执行 curl https://ifconfig.me 分别测试,得到如下结果:

  • Windows 10 Host IP(ifconfig.me): 2409:8a00:xxxx:xxxx::(IPv6)
  • Container IP(ifconfig.me): 120.245.xxx.xxx(IPv4)

发现它们使用了完全不同的公网 IP,容器中使用的是 IPv4,而 host 使用的是 IPv6。

问题原因分析:CDN 节点行为差异

回到 HEAD 请求得到的回复报文(以成功获得 Content-MD5 的响应报文为例):

HTTP/1.1 200 OK
Server: Tengine
Content-Type: audio/mpeg
Content-Length: 7657913
Connection: keep-alive
Date: Tue, 22 Jul 2025 02:57:42 GMT
x-oss-request-id: 687EFE26F7D692303097C0A7
x-oss-cdn-auth: success
Accept-Ranges: bytes
x-oss-object-type: Normal
x-oss-storage-class: Standard
x-oss-server-time: 75
Via: cache66.l2cn3147[76,75,304-0,H], cache6.l2cn3147[77,0], kunlun3.cn5506[0,0,200-0,H], kunlun8.cn5506[1,0]
Content-MD5: UgsxQSaumh0wUVm3LH/z9A==
ETag: "520B314126AE9A1D305159B72C7FF3F4"
Last-Modified: Thu, 20 Feb 2025 01:29:43 GMT
x-oss-hash-crc64ecma: 6532237343798154919
Age: 996
Ali-Swift-Global-Savetime: 1753153062
X-Cache: HIT TCP_MEM_HIT dirn:-2:-2 mlen:0
X-Swift-SaveTime: Tue, 22 Jul 2025 02:57:42 GMT
X-Swift-CacheTime: 3600
Timing-Allow-Origin: *
EagleId: 6f0db51c17531540582252451e

Via这个header记录了请求从客户端到服务器过程中经历的代理服务器或缓存节点的路径信息。通过它基本可以判断请求经历了一系列的CDN节点(阿里云的CDN节点有时以kunlun命名,包括OSS,也是阿里的服务)。

CDN为了就近加速、减轻源站压力,会将内容缓存到不同的边缘节点。而每个节点的缓存行为可能不完全一致:

  • 有的 CDN 节点可能裁剪掉某些非标准或无用的响应头
  • 某些节点可能只缓存 GET 请求的响应;
  • 有的服务(如阿里云 CDN)默认不会缓存 Content-MD5,除非配置白名单;
  • HEAD 请求可能会走更轻量的处理链路,导致 header 丢失或被省略。

并且,从阿里云的相关文档12中也可以找到一些信息,的确存在不响应 Content-MD5 的情况。

而没有响应 Content-MD5 的 response 报文中,它的 Via 头中节点不同:

'Via': 'cache66.l2cn3147[0,0,200-0,H], cache73.l2cn3147[0,0], kunlun8.cn496[19,18,200-0,M], kunlun4.cn496[21,0]'

虽然无法得到各个CDN节点的配置情况,但基本可以判断当前的情况是:容器和主机走的是不同的网络出口,也命中了不同的 CDN 边缘节点,不同的 CDN 节点对响应进行了不同的处理。

解决方案:使用 GET(stream=True) 替代 HEAD

为了确保拿到完整的 header,我尝试将 requests.head() 改为:

response = requests.get(url, stream=True)
md5 = response.headers.get("Content-MD5")
response.close()

这个方案立刻奏效:即使在 Docker 容器中也可以稳定拿到 Content-MD5 了。

是否会有性能问题?

HEAD 请求改为 GET(stream=True) 后,我最关心的是性能是否会受到影响。

相信很多人第一反应也是:“GET 不是会下载整个文件吗?这样不是带宽开销很大?”

答案是:不会(只要你不读取 body)

当设置 stream=True 时,requests 会延迟加载响应体3。如果仅访问 headers,不触发 response.contentresponse.text,就不会下载实际的 MP3 内容。

建议使用如下写法,确保资源被安全释放:

with requests.get(url, stream=True) as response:md5 = response.headers.get("Content-MD5")

总结

HTTP 请求行为不仅受客户端控制,服务端和中间层(CDN)也有很大影响:

  • 由于 Docker 和主机在网络出口上的差异,导致命中了 CDN 的不同节点;
  • 某些 CDN 节点对 HEAD 请求会裁剪响应头或走不同缓存路径;
  • 使用 GET(stream=True) 能更稳定地获取完整的 header,前提是不读取响应体

参考

  1. CDN加速OSS后未响应Content-MD5
  1. https://developer.aliyun.com/ask/388501
  1. requests 文档中的 stream 参数说明
http://www.dtcms.com/a/563336.html

相关文章:

  • 网站建站的流程互动网门户网站建设
  • 怎么做网站关键词优化网站一直没有收录
  • 上海网页建站企业网站设计话术
  • 博客网站搭建电商平台开网店
  • 安阳网站建设公司出租车公司程序开发工具
  • 2_网站建设的一般步骤包含哪些电商首页设计思路
  • 唐山做企业网站搜索引擎作弊网站有哪些
  • 微擎 网站开发工具比较大的软件下载网站
  • 济南网站建设工资php怎么创建网站
  • 网站域名代理备案优化新十条
  • google登录入口李江seo
  • 杭州高端响应式网站建设交互型网站开发
  • 做暖dnf动态ufo网站电子商务网站建设的阶段化分析
  • seo公司怎样百度首页优化
  • 绍兴公司网站建设 中企动力绍兴wordpress 手机 自适应
  • 常州天狼网站建设加盟微信小程序代理
  • 天津网站域名购买专业网站建设公司地址
  • 家庭网做网站企业名录联系电话
  • 集团网站建设建站模板最新网站推广哪家好
  • c 精品课程建设网站源程序平台设计方案
  • 网站开发软文上海建设工程交易网
  • 政协网站法治建设聊城网站建设包括哪些
  • 深圳定制网站开发广东东莞大益队
  • 康定网站建设工作室玉石电商网站建设方案
  • 南县网站制作网站标题长度
  • 网站制度建设存在的问题企业网站建设中存在的问题
  • 智能建站源码php网站怎么做301跳转
  • 织梦cms做多语言的网站潍坊网站制作网络科技
  • 绵阳公司商务网站制作哪个软件做网站好
  • 建设部法律法规网站公司设计网页设计