当前位置：首页 > news >正文

OpenTelemetry 介绍

news 2025/7/1 17:27:10

文章目录

- 1. 概述
- - 什么是OpenTelemetry
  - 发展历史与背景
  - 主要特点与优势
- 2. 核心概念
- - 追踪(Tracing)
  - 指标(Metrics)
  - 日志(Logs)
  - 行李(Baggage)
- 3. 主要组件
- - API层
  - SDK层
  - 数据收集器(Collector)
  - 导出器(Exporters)
  - - OTLP（OpenTelemetry Protocol）
- 4. 集成方式
- - 语言支持(SDK)
  - 自动与手动插桩
  - 常见框架集成
- 5. 实际应用
- - 微服务监控
  - 性能分析
  - 故障排查
  - 最佳实践
- 6. 生态系统
- - 与Prometheus/Grafana集成
  - 与Jaeger/Zipkin集成
  - 结语
- 参考资料

1. 概述

什么是OpenTelemetry

OpenTelemetry是一个观测性框架和工具包，旨在创建和管理遥测数据，如追踪、指标和日志。OpenTelemetry是厂商和工具无关的，意味着它可以与各种观测性后端一起使用，包括像Jaeger和Prometheus这样的开源工具，以及商业解决方案。OpenTelemetry是一个Cloud Native Computing Foundation（CNCF）项目。

上面是OpenTelemetry的官方介绍，说人话就是：
OpenTelemetry就像是你应用的"体检中心"，它能自动收集应用的各项指标(心跳、血压)、追踪请求链路(看病流程)、记录日志(病历)，并把数据统一格式发给各种监控系统(Prometheus、Jaeger等)。上面这些在OpenTelemetry项目之前都是由各个厂商自己开发的，现在OpenTelemetry把这些功能都集成到一起，方便开发者使用。作为一个行业标准，OpenTelemetry 得到了40多个可观测性供应商的支持，被许多库、服务和应用程序集成，并被众多终端用户采用。

发展历史与背景

在这里插入图片描述

Google 2010年发布的 Dapper 论文是分布式链路追踪的开端
2012年 Twitter 开源了 Zipkin
2015年 Uber 发布了 Jaeger 的开源版本。目前 Zipkin 和 Jaeger 仍然是最流行的分布式链路追踪工具之一
2015年 OpenTracing 项目被 CNCF 接受为它的第三个托管项目，致力于标准化跨组件的分布式链路追踪
2017年 Google 将内部的 Census 项目开源，随后 OpenCensus 在社区中流行起来
2019年初，两个现有开源项目：OpenTracing 和 OpenCensus 被宣布合并为 OpenTelemetry 项目
2021年，OpenTelemetry 发布了V1.0.0，为客户端的链路追踪部分提供了稳定性保证
2023年是 OpenTelemetry 的里程碑，其三个基本信号——链路追踪、指标和日志，都达到了稳定版本

主要特点与优势

统一标准
- 提供统一的API和SDK规范，整合了追踪(Tracing)、指标(Metrics)和日志(Logs)三大观测信号
- 取代了之前的OpenTracing和OpenCensus两个标准，解决了社区分裂问题
- 数据格式标准化，兼容主流观测后端(Prometheus, Jaeger, Zipkin等)
多语言支持
- 支持10+主流编程语言(Go, Java, Python, JS等)
- 每种语言实现都遵循相同的API规范，保证跨语言一致性
- 自动插桩(Auto-instrumentation)减少手动编码工作量
可扩展架构
- 模块化设计，支持自定义采样器、处理器和导出器
- 通过OpenTelemetry Collector实现灵活的数据处理和路由
- 可轻松集成现有监控系统和自定义观测后端
生产就绪
- CNCF毕业项目，拥有活跃的社区和广泛的企业采用
- 主要组件已达到稳定版本(GA)，适合生产环境使用
- 丰富的文档和示例，降低学习和使用门槛
实际价值
- 统一技术栈，减少多套观测系统的维护成本
- 提升问题排查效率，通过分布式追踪快速定位性能瓶颈
- 标准化指标采集，实现跨服务的统一监控视图

2. 核心概念

追踪(Tracing)

追踪(Tracing)记录请求在分布式系统中的流转路径，可视化服务间的调用关系。每个追踪由多个跨度(Span)组成，每个Span代表一个工作单元，包含操作名称、时间戳、持续时间和标签等信息。

工作原理:

通过自动或手动插桩在代码关键点创建Span
上下文传播机制将TraceID和SpanID在服务间传递
采样策略决定哪些追踪需要记录
数据导出到后端系统进行分析展示

应用场景:

性能瓶颈分析
分布式事务追踪
错误传播路径定位

指标(Metrics)

指标(Metrics)是对系统运行状态的数值度量，反映系统的健康度和性能表现。OpenTelemetry支持三种指标类型：

计数器(Counter): 单调递增的值，如请求数
测量值(Gauge): 瞬时值，如CPU使用率
直方图(Histogram): 值的分布统计，如响应时间

工作原理:

通过Meter创建指标并记录测量值
支持预聚合减少数据传输量
可配置的导出频率和聚合方式

应用场景:

系统资源监控
业务指标统计
容量规划

日志(Logs)

日志(Logs)记录系统运行时的离散事件，提供详细的上下文信息。OpenTelemetry统一了日志格式，支持结构化日志记录。

工作原理:

日志收集器接收应用日志
日志处理器进行解析、过滤和增强
日志导出器将数据发送到后端
可与追踪和指标关联分析

应用场景:

错误排查
审计跟踪
行为分析

行李(Baggage)

行李(Baggage)是在分布式系统中传递的键值对数据，用于跨服务传递业务上下文信息。

工作原理:

在请求入口设置行李项
行李随请求上下文自动传播
各服务可读取行李内容
不影响核心观测数据流

应用场景:

传递用户ID、请求来源等业务信息
A/B测试分组标记
跨服务调试信息传递

关于Tracing、Metrics和Logging之间的关系：

三者相互关联，共同提供完整的系统观测能力。追踪提供调用链视角，指标提供系统状态概览，日志提供详细上下文。通过统一的标识符（如TraceID），可以在三种数据间无缝导航。

3. 主要组件

API层

想象API层就像你家电器的按钮和开关——你只需要知道按哪里，不需要了解里面的电路是怎么工作的。OpenTelemetry的API层就是这样，它定义了简单清晰的接口，让你的应用可以轻松"按按钮"记录观测数据。

为什么API层很妙：

就像通用遥控器一样，一套API控制所有观测类型
“写一次，到处运行”——不绑定特定后端实现
轻如羽毛，对应用性能影响微乎其微
稳如泰山，API升级不会破坏你的代码

看看这段简单的代码：

// 追踪API示例 - 记录一个操作的开始和结束
Tracer tracer = GlobalOpenTelemetry.getTracer("购物车服务");
Span span = tracer.spanBuilder("结算操作").startSpan();
try (Scope scope = span.makeCurrent()) {// 这里是你的业务操作，比如处理订单span.setAttribute("订单金额", 199.99);  // 添加有用的上下文信息
} finally {span.end();  // 别忘了"打卡下班"！
}// 指标API示例 - 记录业务指标比纸笔还方便
Meter meter = GlobalOpenTelemetry.getMeter("支付服务");
LongCounter counter = meter.counterBuilder("已处理订单").build();
counter.add(1);  // 又搞定一单！

SDK层

SDK层是OpenTelemetry的引擎舱，它实现了API层定义的接口，并提供了实际的数据处理机制。就像高级相机的内部处理芯片，SDK层负责将原始观测数据转换为有意义的信息，并确保它能被正确传输到目标系统。

SDK层的关键功能：

将API的抽象概念转化为具体实现
提供灵活的采样策略，帮你在数据量与详细度间取得平衡
构建高效的处理管道，确保观测不会影响应用性能
管理资源属性，为遥测数据添加环境上下文
与各种后端系统建立连接桥梁

配置示例：

// SDK配置 - 告诉OpenTelemetry如何处理和发送数据
SdkTracerProvider tracerProvider = SdkTracerProvider

查看全文

http://www.dtcms.com/a/178492.html

【软件推荐——ScreenToGif】

docker 部署clickhouse

[数据处理] 6. 数据可视化

Java 17配置Jenkins

基于Django和Bootstrap开发的美食推荐系统

函数级重构：如何写出高可读性的方法？

探讨关于智能体（Agent）结合 Dify、大语言模型（LLM）以及 Qwen-3 模型的项目或概念

VNC windows连接ubuntu桌面

Linux——Mysql数据库

安全可控·高效响应|北峰智能互通矿业通信系统解决方案

记录 iframe 跨域通信及安全配置

MariaDB 与 MySQL 的关系：从同源到分道扬镳

二叉树的基本操作

浅谈 Shell 脚本编程中引号的妙用

Logback官方文档翻译章节目录

conda创建一个新环境，指定环境的存储位置，而不是默认值地址

KAXA凯莎科技AGV通信方案如何赋能智能仓储高效运作？

[Linux]在源代码数量优化中统计源文件数量，目标文件数量的一点作用

科技成果鉴定测试有哪些内容?又有什么作用?

【文档智能】开源的阅读顺序（Layoutreader）模型使用指南

Spark缓存

Opencv进阶操作：图像拼接

如何通过服务主体获取 Azure 凭据

BGP基础

vscode如何使用 GitHub Copilot

Qt 编译 sqldrivers之psql

安全监控之Linux核心资产SSH连接监测邮件

K8s中的containerPort与port、targetPort、nodePort的关系：

排序算法-选择排序

如何使用 QuickAPI 推动医院数据共享 —— 基于数据仓库场景的实践

文章目录

1. 概述

什么是OpenTelemetry

发展历史与背景

主要特点与优势

2. 核心概念

追踪(Tracing)

指标(Metrics)

日志(Logs)

行李(Baggage)

3. 主要组件

API层

SDK层

相关文章：