Envoy + Prometheus + Grafana：打造全方位性能监控与告警平台

2025/3/13 22:19:38 32 0 0 0

一、为什么选择 Envoy + Prometheus + Grafana？

二、实操步骤详解：搭建监控平台

1. 配置 Envoy 暴露指标

2. 配置 Prometheus 抓取 Envoy 指标

3. 配置 Grafana 展示 Envoy 指标

4. 配置告警规则

三、常见问题与解决方案

四、总结与展望

Envoy 作为云原生领域炙手可热的服务网格代理，其强大的可观察性是其核心优势之一。而 Prometheus 和 Grafana 则是监控领域的黄金搭档。将三者结合，就能打造一个全方位、高性能的监控与告警平台，让你对 Envoy 的运行状态了如指掌。今天，咱们就来聊聊如何一步步实现这个目标，并重点关注实操中容易遇到的坑和提升效率的技巧。

一、为什么选择 Envoy + Prometheus + Grafana？

在深入实操之前，咱们先来理清思路，为什么这三者是最佳拍档？

Envoy 的可观察性： Envoy 内置了强大的统计信息收集功能，可以暴露丰富的指标（Metrics），如请求延迟、成功率、连接数、熔断状态等等。这些指标以 Prometheus 格式暴露，简直是天作之合。
Prometheus 的强大抓取与存储： Prometheus 是一个开源的监控和告警系统，擅长抓取、存储和查询时间序列数据。它能自动发现 Envoy 暴露的指标，并高效地存储起来。
Grafana 的精美可视化： Grafana 是一个开源的数据可视化平台，可以将 Prometheus 中的数据以各种图表形式展现出来，让你一目了然地了解 Envoy 的运行状况。同时，Grafana 还支持灵活的告警规则配置。

总而言之，这三者各司其职，完美配合，为你提供从指标收集、存储、查询、可视化到告警的全套解决方案。

二、实操步骤详解：搭建监控平台

接下来，咱们进入实操环节。假设你已经有了一个正在运行的 Envoy 服务网格（如果你还没有，可以参考 Envoy 官方文档快速搭建一个）。

1. 配置 Envoy 暴露指标

首先，我们需要配置 Envoy，让它暴露 Prometheus 格式的指标。这通常通过 Envoy 的 admin 配置块来实现。

 admin:
  access_log_path: /tmp/admin_access.log
  address:
    socket_address:
      protocol: TCP
      address: 0.0.0.0
      port_value: 9901 # Envoy 管理端口，Prometheus 将从这里抓取指标

在这个配置中，我们指定了 Envoy 管理接口的地址和端口（通常是 9901）。Prometheus 将通过这个端口访问 /stats/prometheus 路径来获取指标。

注意： 确保 Envoy 的管理端口对 Prometheus 所在服务器是可访问的。如果你的 Envoy 和 Prometheus 部署在不同的网络环境中，可能需要配置网络策略或使用服务发现机制。

2. 配置 Prometheus 抓取 Envoy 指标

接下来，我们需要配置 Prometheus，让它定期从 Envoy 抓取指标。这通常通过 Prometheus 的 scrape_configs 配置块来实现。

 scrape_configs:
  - job_name: 'envoy'
    static_configs:
      - targets: ['<Envoy_IP>:9901'] # 替换为你的 Envoy 管理 IP 和端口

在这个配置中，我们定义了一个名为 envoy 的抓取任务，并指定了 Envoy 管理接口的地址和端口。Prometheus 将定期访问这个地址，抓取 Envoy 暴露的指标。

提示： 如果你有多个 Envoy 实例，可以在 targets 中添加多个地址。或者，你可以使用 Prometheus 的服务发现机制（如 Kubernetes 服务发现）来自动发现 Envoy 实例。

3. 配置 Grafana 展示 Envoy 指标

现在，Prometheus 已经开始收集 Envoy 的指标了。接下来，我们需要配置 Grafana，将这些指标可视化出来。

添加 Prometheus 数据源： 在 Grafana 中，添加一个 Prometheus 数据源，并配置 Prometheus 服务器的地址和端口。
导入 Envoy 仪表盘： Grafana 社区有很多现成的 Envoy 仪表盘，你可以直接导入使用。在 Grafana 中，点击 "Create" -> "Import"，然后输入仪表盘的 ID 或 URL。例如，你可以搜索 "Envoy Dashboard" 找到一些常用的仪表盘。
自定义仪表盘： 如果现成的仪表盘不能满足你的需求，你也可以自定义仪表盘。在 Grafana 中，点击 "Create" -> "Dashboard"，然后添加各种图表（如 Graph、Singlestat、Heatmap 等），并配置查询语句（使用 PromQL）来获取 Prometheus 中的数据。

技巧：

利用 Grafana 变量： 你可以使用 Grafana 的变量功能，创建可复用的仪表盘。例如，你可以创建一个名为 cluster 的变量，然后在查询语句中使用 $cluster 来引用这个变量。这样，你就可以通过切换变量的值，来查看不同集群的 Envoy 指标。
使用 Grafana 模板： Grafana 支持仪表盘模板，你可以将常用的仪表盘保存为模板，然后在创建新仪表盘时直接使用模板。

4. 配置告警规则

有了可视化的仪表盘，我们还可以配置告警规则，当 Envoy 的某些指标超过阈值时，及时通知我们。

在 Grafana 中配置告警规则： 在 Grafana 中，选择一个仪表盘，点击 "Alert" -> "Create Alert"，然后配置告警规则的名称、触发条件（如某个指标超过阈值）、通知方式（如邮件、Slack、Webhook 等）等。
使用 Prometheus Alertmanager： 如果你需要更复杂的告警规则和通知策略，可以使用 Prometheus Alertmanager。Alertmanager 可以对 Prometheus 的告警进行分组、抑制、静默等处理，并支持多种通知方式。

建议：

从关键指标入手： 刚开始配置告警时，可以先从一些关键指标入手，如请求延迟、错误率、连接数等。随着对 Envoy 的了解加深，再逐步添加更多的告警规则。
设置合理的阈值： 告警阈值的设置非常重要，太低容易误报，太高则可能错过真正的问题。建议根据历史数据和业务需求，设置合理的阈值。
测试告警规则： 配置好告警规则后，一定要进行测试，确保告警能够正常触发，并及时通知到相关人员。

三、常见问题与解决方案

在实际操作中，你可能会遇到一些问题。下面列出了一些常见问题及其解决方案：

问题： Prometheus 无法抓取 Envoy 指标。
- 解决方案： 检查 Envoy 的管理端口是否配置正确，Prometheus 所在服务器是否可以访问 Envoy 的管理端口，防火墙是否阻止了访问。
问题： Grafana 无法显示 Envoy 指标。
- 解决方案： 检查 Grafana 的 Prometheus 数据源是否配置正确，查询语句是否正确，Prometheus 是否已经抓取到了 Envoy 指标。
问题： 告警规则无法触发。
- 解决方案： 检查告警规则的触发条件是否正确，阈值是否设置合理，通知方式是否配置正确。
问题： Envoy 指标过多，导致 Prometheus 负载过高。
- 解决方案： 可以通过 Envoy 的 stats_config 配置块，过滤掉一些不需要的指标。或者，可以使用 Prometheus 的 relabel_configs 配置块，对指标进行重命名或过滤。
问题：Envoy 暴露的指标命名不够规范，难以理解。
- 解决方案: 可以在Prometheus的 relabel_configs中，使用正则表达式对指标名称进行重写,使其更具可读性.例如,将envoy_cluster_upstream_rq_total重写为更易理解的envoy_cluster_request_total.
问题：希望监控Envoy的TLS证书过期时间。
- 解决方案: Envoy本身不直接暴露证书过期时间指标。但你可以利用envoy_listener_ssl_cert_expire_time_seconds指标(如果Envoy配置了TLS),结合Prometheus的time()函数和timestamp()函数计算剩余过期时间.然后在Grafana中进行可视化和告警设置。
问题: 需要对Envoy的访问日志进行更细粒度的分析,不仅仅是指标。
- 解决方案: 可以将Envoy的访问日志(access log)发送到日志收集系统(如ELK Stack或Loki),然后利用这些工具进行更深入的分析和查询。可以结合Prometheus的指标监控,实现更全面的可观察性。

四、总结与展望

通过本文，相信你已经掌握了如何使用 Envoy + Prometheus + Grafana 打造全方位性能监控与告警平台。这只是一个开始，随着你对 Envoy 的深入了解和业务需求的变化，你可以不断优化和完善你的监控体系。

未来，你可以探索更多高级特性，如：

分布式追踪： 将 Envoy 与 Jaeger、Zipkin 等分布式追踪系统集成，实现请求级别的监控和诊断。
混沌工程： 利用 Envoy 的故障注入功能，模拟各种故障场景，测试系统的韧性。
服务网格管理： 使用 Istio、Linkerd 等服务网格管理平台，简化 Envoy 的配置和管理。

总之，Envoy 的可观察性是一个非常广阔的领域，值得你不断探索和实践。希望本文能为你提供一个良好的开端，祝你在云原生监控的道路上越走越远！

技术老炮儿 Envoy Prometheus Grafana

	admin:
	access_log_path: /tmp/admin_access.log
	address:
	socket_address:
	protocol: TCP
	address: 0.0.0.0
	port_value: 9901 # Envoy 管理端口，Prometheus 将从这里抓取指标

	scrape_configs:
	- job_name: 'envoy'
	static_configs:
	- targets: ['<Envoy_IP>:9901'] # 替换为你的 Envoy 管理 IP 和端口

Envoy + Prometheus + Grafana：打造全方位性能监控与告警平台

一、 为什么选择 Envoy + Prometheus + Grafana？

二、 实操步骤详解：搭建监控平台

1. 配置 Envoy 暴露指标

2. 配置 Prometheus 抓取 Envoy 指标

3. 配置 Grafana 展示 Envoy 指标

4. 配置告警规则

三、 常见问题与解决方案

四、 总结与展望

一、 为什么选择 Envoy + Prometheus + Grafana？

二、 实操步骤详解：搭建监控平台

1. 配置 Envoy 暴露指标

2. 配置 Prometheus 抓取 Envoy 指标

3. 配置 Grafana 展示 Envoy 指标

4. 配置告警规则

三、 常见问题与解决方案

四、 总结与展望

评论点评

一、为什么选择 Envoy + Prometheus + Grafana？

二、实操步骤详解：搭建监控平台

三、常见问题与解决方案

四、总结与展望

一、为什么选择 Envoy + Prometheus + Grafana？

二、实操步骤详解：搭建监控平台

三、常见问题与解决方案

四、总结与展望