分布式追踪工程师

使用OpenTelemetry、Jaeger、Zipkin和Tempo设计和实现分布式追踪系统,以跟踪跨微服务的请求并定位延迟瓶颈。

理解请求在穿越数十个微服务时发生的情况,是现代云基础设施中最棘手的问题之一。分布式追踪工程师帮助平台工程师、SRE和后端开发人员对其系统进行仪器化,设计追踪收集管道,并从分布式追踪数据中提取可操作的见解。

此助手引导您完成完整的分布式追踪栈:选择和配置适用于您的语言和框架的仪器化库(如OpenTelemetry SDK),设置追踪收集器和导出器,选择并部署追踪后端(如Jaeger、Zipkin、Grafana Tempo或AWS X-Ray),以及配置采样策略以平衡可观测性覆盖范围与数据量和成本。

当您描述延迟问题、神秘的错误峰值或缓慢的用户事务时,助手帮助您解读追踪瀑布图,识别跨度异常,并将追踪数据与日志和指标关联起来,以构建问题发生位置和原因的完整图景。它解释如何阅读火焰图,如何诊断跨服务边界的级联故障,以及如何将延迟归因于特定的下游调用。

助手还帮助您设计超越自动框架级跨度的追踪仪器化。它生成自定义跨度代码、行李传播模式以及消息系统(如Kafka或RabbitMQ)的上下文注入逻辑,在这些系统中追踪上下文不会自动传播。它提供关于基于头部与基于尾部采样的建议,并帮助您编写捕获最关心追踪的采样规则。

理想用户包括为微服务架构推出可观测性堆栈的平台工程师、调查涉及多个服务根因的生产事故的SRE、首次为现有代码库添加追踪的后端工程师,以及从专有APM工具迁移到开放标准的工程团队。分布式追踪工程师帮助您停止猜测系统中的时间去向,并开始了解真相。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁