Logstash Input 插件监控实战：API、Prometheus 与 Grafana 的完美结合

2025/3/15 13:53:41 37 0 0 0

为什么需要监控 Input 插件？

Logstash 的监控 API：你的第一个朋友

开启 Logstash 的监控 API

访问监控 API

API 存在的问题

Prometheus：监控数据的收集者

Prometheus 的工作原理

配置 Prometheus 监控 Logstash

Prometheus 指标详解

Grafana：监控数据的可视化利器

配置 Grafana 监控 Logstash

打造你的专属 Logstash 监控仪表盘

告警：守护你的 Logstash

Prometheus 告警规则

测试告警

总结：构建完善的 Logstash 监控体系

哥们，你好！我是老码农。这次我们聊聊 Logstash 监控，特别是 Input 插件这块。作为一名开发或者运维，你肯定希望对 Logstash 的运行状态了如指掌，尤其是那些负责数据输入的 Input 插件。想象一下，如果 Input 插件卡住了，数据进不来，那整个 pipeline 都要歇菜。所以，监控 Input 插件的性能至关重要。这次，我会带你一步步搞定 Logstash 的监控，用上 API、Prometheus 和 Grafana 这三大神器，让你对 Logstash 的运行状态一览无遗。

为什么需要监控 Input 插件？

首先，咱们得明确一下，为啥要监控 Input 插件？原因很简单：

性能瓶颈定位： Input 插件是数据进入 Logstash 的第一步。如果它慢了，整个 pipeline 都会慢。监控能让你快速发现哪个 Input 插件是瓶颈。
错误排查： Input 插件可能会遇到各种问题，比如网络连接失败、数据格式错误等。监控可以帮助你及时发现并解决这些问题。
资源利用率优化： 通过监控，你可以了解 Input 插件的 CPU、内存、磁盘 I/O 等资源使用情况，从而优化配置，提高资源利用率。
容量规划： 监控数据可以帮助你预测 Logstash 的负载，从而进行容量规划，避免出现性能问题。

Logstash 的监控 API：你的第一个朋友

Logstash 本身就提供了强大的监控 API，这是我们开始监控的第一步。这个 API 提供了关于 Logstash 内部运行状态的各种信息，包括插件的运行状态、队列的状态、节点的健康状况等。

开启 Logstash 的监控 API

默认情况下，Logstash 的监控 API 是关闭的。我们需要在 logstash.yml 文件中进行配置来开启它。找到或者添加以下配置：

 http.host: "0.0.0.0" # 允许所有 IP 访问，生产环境请谨慎配置
http.port: 9600       # 监控 API 端口，可以自定义

注意：

http.host：设置为 0.0.0.0 意味着允许所有 IP 访问。在生产环境中，为了安全起见，你应该将其设置为特定的 IP 地址，或者配置访问权限。
http.port：默认是 9600。如果你需要修改，请确保没有端口冲突。

重启 Logstash，使配置生效。然后，你就可以通过浏览器或者 curl 命令访问监控 API 了。

访问监控 API

现在，让我们来访问一下监控 API。你可以使用 curl 命令或者浏览器。

查看 Logstash 整体状态：
```
curl http://localhost:9600/_node/stats
```
这个命令会返回一个 JSON 格式的响应，包含了 Logstash 的各种统计信息，包括：
- jvm：JVM 的相关信息，比如内存使用情况、垃圾回收等。
- pipeline：Pipeline 的状态，比如处理的事件数量、处理速度等。
- plugins：插件信息，包括 Input、Filter、Output 插件的统计信息。这正是我们关注的重点。
查看 Input 插件状态：
```
curl http://localhost:9600/_node/stats/pipelines/<pipeline_id>/plugins/inputs
```
<pipeline_id> 是你的 pipeline 的 ID，可以在 logstash.yml 文件中配置，或者使用默认值 main。这个命令会返回 Input 插件的详细统计信息，包括：
- events：插件处理的事件数量。
- bytes：插件处理的字节数。
- queue_push_duration_in_millis：事件推送到队列的平均耗时。
- received：接收到的事件数量。
通过这些信息，你可以了解 Input 插件的运行状况，比如是否接收到数据，处理速度如何等。

示例：

假设你有一个名为 file 的 Input 插件，配置如下：

 input {
  file {
    path => "/var/log/my.log"
    start_position => "beginning"
  }
}

那么，通过监控 API，你可以看到类似这样的数据：

 {
  "pipelines": {
    "main": {
      "plugins": {
        "inputs": [
          {
            "id": "file_0",
            "name": "file",
            "events": {
              "in": 12345,
              "out": 12345
            },
            "bytes": {
              "in": 1234567,
              "out": 1234567
            },
            "queue_push_duration_in_millis": {
              "avg": 1.23,
              "max": 5.67,
              "total": 12345
            },
            "received": 12345
          }
        ]
      }
    }
  }
}

从这个数据中，你可以看到 file 插件已经处理了 12345 个事件，接收了 1234567 字节的数据，平均推送到队列的耗时是 1.23 毫秒。如果这些数值长时间没有变化，或者received 的数值没有增加，那么你就要警惕了，这可能意味着 Input 插件出现了问题。

API 存在的问题

虽然 Logstash 的监控 API 提供了丰富的信息，但它也存在一些问题：

数据需要手动获取： 你需要手动执行 curl 命令或者访问浏览器，才能获取监控数据，这很不方便。
数据存储和可视化： API 返回的是 JSON 格式的数据，需要你自己编写脚本来解析、存储和可视化这些数据。
告警功能缺失： API 本身没有告警功能，你需要自己编写脚本来判断数据是否异常，并发送告警信息。

为了解决这些问题，我们需要引入更强大的工具，比如 Prometheus 和 Grafana。

Prometheus：监控数据的收集者

Prometheus 是一个开源的监控系统，它以时间序列数据的形式存储监控数据。它具有强大的数据收集、存储和查询能力，非常适合用来监控 Logstash。

Prometheus 的工作原理

Prometheus 的工作原理很简单：

数据采集： Prometheus 通过配置的 Target 来采集监控数据。Target 可以是各种各样的服务，比如 Logstash、Node Exporter（用于监控服务器）、Redis 等。
数据存储： Prometheus 将采集到的数据以时间序列的形式存储在本地磁盘上。
数据查询： Prometheus 提供了一个强大的查询语言 PromQL，你可以使用 PromQL 来查询和分析监控数据。
告警： Prometheus 具有告警功能，你可以配置告警规则，当监控数据超过阈值时，就会触发告警。

配置 Prometheus 监控 Logstash

为了让 Prometheus 监控 Logstash，我们需要配置一个 Prometheus 的 Target。这里，我们使用 prometheus-logstash-exporter 这个插件。这是一个专门为 Logstash 设计的 Prometheus Exporter，它可以从 Logstash 的监控 API 中获取数据，并将其转换为 Prometheus 可以理解的格式。

安装 prometheus-logstash-exporter：

你可以从 GitHub 上下载 prometheus-logstash-exporter 的二进制文件：https://github.com/prometheus-community/prometheus-logstash-exporter/releases

下载后，解压并运行它：
```
./prometheus-logstash-exporter -logstash.url=http://localhost:9600
```
-logstash.url 参数指定了 Logstash 监控 API 的地址。你可以根据你的实际情况修改这个参数。
配置 Prometheus：

编辑 Prometheus 的配置文件 prometheus.yml，添加一个 Target，用于抓取 prometheus-logstash-exporter 的数据：
```
 scrape_configs:
  - job_name: 'logstash'
    static_configs:
      - targets: ['localhost:9200'] # prometheus-logstash-exporter 默认端口是 9200
```
- job_name：定义了监控任务的名称。
- targets：指定了 prometheus-logstash-exporter 的地址和端口。

保存 prometheus.yml 文件，并重启 Prometheus。
验证 Prometheus 是否成功采集数据：

打开浏览器，访问 Prometheus 的 Web UI (默认端口是 9090)。在查询框中输入 logstash_input_events_total，然后点击“Execute”按钮。如果你能看到一些数据，说明 Prometheus 已经成功采集了 Logstash 的监控数据。

logstash_input_events_total 是一个 Prometheus 指标，代表 Input 插件处理的事件总数。Prometheus-logstash-exporter 会将 Logstash 的监控 API 数据转换为 Prometheus 指标。你可以在 Prometheus 的 Web UI 中查看其他的指标，比如 logstash_input_bytes_total（处理的字节数）、logstash_input_queue_push_duration_seconds_avg（推送到队列的平均耗时）等。

Prometheus 指标详解

prometheus-logstash-exporter 导出了很多 Prometheus 指标，这些指标对应了 Logstash 监控 API 中的各种数据。下面列出了一些常用的指标：

logstash_node_jvm_memory_used_bytes： JVM 内存使用量。
logstash_node_jvm_memory_max_bytes： JVM 内存最大值。
logstash_node_jvm_gc_collection_seconds： GC 耗时。
logstash_pipeline_events_in_total： Pipeline 接收的事件总数。
logstash_pipeline_events_out_total： Pipeline 输出的事件总数。
logstash_pipeline_queue_events_size_in_bytes： 队列大小（字节）。
logstash_input_events_total： Input 插件处理的事件总数。
logstash_input_bytes_total： Input 插件处理的字节总数。
logstash_input_queue_push_duration_seconds_avg： Input 插件推送到队列的平均耗时。
logstash_filter_events_in_total： Filter 插件接收的事件总数。
logstash_filter_events_out_total： Filter 插件输出的事件总数。
logstash_output_events_in_total： Output 插件接收的事件总数。
logstash_output_events_out_total： Output 插件输出的事件总数。

你可以使用 Prometheus 的 PromQL 语言来查询和分析这些指标。比如，你可以使用以下查询来计算 Input 插件的每秒处理事件数：

rate(logstash_input_events_total[1m])

这个查询计算了 logstash_input_events_total 在过去 1 分钟内的变化率，也就是每秒处理的事件数。

Grafana：监控数据的可视化利器

Grafana 是一个开源的仪表盘工具，它可以从各种数据源（比如 Prometheus）中获取数据，并以图表、表格等形式展示出来。Grafana 具有强大的可视化能力，可以帮助你更好地理解监控数据。

配置 Grafana 监控 Logstash

安装 Grafana：

你可以从 Grafana 的官方网站下载安装包：https://grafana.com/grafana/download

安装完成后，启动 Grafana。默认情况下，Grafana 的 Web UI 运行在 3000 端口。
添加 Prometheus 数据源：

在 Grafana 中，我们需要添加 Prometheus 作为数据源。登录 Grafana，点击左侧的“Configuration” -> “Data sources”，然后点击“Add data source”。

选择“Prometheus”作为数据源类型。在配置页面中，填写 Prometheus 的 URL (比如 http://localhost:9090)，并点击“Save & Test”按钮，如果测试成功，说明 Grafana 已经连接到 Prometheus。
创建 Grafana 仪表盘：

点击左侧的“Dashboards” -> “New” -> “Import”。

你可以从 Grafana 的官方网站或者社区找到一些现成的 Logstash 仪表盘模板，导入这些模板可以快速搭建一个监控仪表盘。

当然，你也可以自己创建仪表盘。点击“New” -> “Add a panel”。

选择“Prometheus”作为数据源。然后，在“Query”栏中输入 PromQL 查询语句，比如 rate(logstash_input_events_total[1m])，就可以绘制出 Input 插件的每秒处理事件数的图表。你可以自定义图表的标题、样式、颜色等。

打造你的专属 Logstash 监控仪表盘

现在，让我们来打造一个属于你自己的 Logstash 监控仪表盘。你可以根据自己的需求，选择不同的指标进行可视化，比如：

Input 插件处理速率： 使用 rate(logstash_input_events_total[1m]) 或 rate(logstash_input_bytes_total[1m]) 来展示 Input 插件的每秒处理事件数或字节数。
Input 插件处理延迟： 使用 logstash_input_queue_push_duration_seconds_avg 来展示 Input 插件推送到队列的平均耗时。
Pipeline 处理速率： 使用 rate(logstash_pipeline_events_in_total[1m]) 和 rate(logstash_pipeline_events_out_total[1m]) 来展示 Pipeline 的输入和输出速率。
JVM 内存使用情况： 使用 logstash_node_jvm_memory_used_bytes 和 logstash_node_jvm_memory_max_bytes 来展示 JVM 的内存使用情况。
队列大小： 使用 logstash_pipeline_queue_events_size_in_bytes 来展示队列的大小。

你可以将这些指标组合在一起，创建一个综合的仪表盘，方便你全面了解 Logstash 的运行状态。

示例仪表盘：

我给你提供一个简单的示例仪表盘的结构，你可以根据这个结构进行扩展和修改：

Input 插件概览：
- Input 插件处理速率（每秒事件数）
- Input 插件处理延迟（平均推送到队列的耗时）
- Input 插件处理的字节数
Pipeline 概览：
- Pipeline 输入速率（每秒事件数）
- Pipeline 输出速率（每秒事件数）
- 队列大小
JVM 概览：
- JVM 内存使用情况
- GC 耗时

你可以为每个指标添加标题、单位、颜色等，让仪表盘更易于阅读和理解。

告警：守护你的 Logstash

除了可视化监控数据，告警也是监控体系中非常重要的一部分。通过配置告警规则，你可以在 Logstash 出现异常时及时收到通知，从而快速响应并解决问题。

Prometheus 告警规则

Prometheus 具有强大的告警功能。你可以在 Prometheus 的配置文件 prometheus.yml 中定义告警规则。告警规则使用 PromQL 语言来定义，当监控数据满足告警规则时，Prometheus 就会触发告警。

定义告警规则：

在 prometheus.yml 文件中，添加 rule_files 配置项，指定告警规则文件的路径：

 rule_files:
  - 'rules.yml'

然后，创建一个 rules.yml 文件，用于定义告警规则。比如，你可以定义一个告警规则，当 Input 插件的每秒处理事件数低于某个阈值时，就触发告警：

 groups:
  - name: logstash_input_alerts
    rules:
      - alert: LogstashInputSlow
        expr: rate(logstash_input_events_total[1m]) < 100
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "Logstash Input 插件处理缓慢" 
          description: "Logstash Input 插件每秒处理事件数低于 100，请检查 Input 插件配置和数据源是否正常。"

alert：告警的名称。
expr：PromQL 表达式，定义了告警的条件。当这个表达式的值为 true 时，就会触发告警。
for：告警持续时间，当表达式持续为 true 超过这个时间时，才会触发告警。
labels：告警的标签，可以用于分类和过滤告警信息。
annotations：告警的注释，可以包含告警的摘要和描述信息。

配置 Alertmanager：

Prometheus 本身只负责告警的触发，告警信息的发送需要借助 Alertmanager。Alertmanager 是一个独立的组件，负责接收 Prometheus 发送的告警信息，并将其发送到各种通知渠道，比如邮件、Slack、钉钉等。

你需要安装和配置 Alertmanager。配置 Alertmanager 的配置文件 alertmanager.yml，指定通知渠道和通知方式：

 route:
  receiver: 'default-email'
receivers:
  - name: 'default-email'
    email_configs:
      - to: 'your_email@example.com'
        from: 'alertmanager@example.com'
        smarthost: 'smtp.example.com:587'
        auth_username: 'your_username'
        auth_password: 'your_password'

配置好之后，重启 Alertmanager。

配置 Prometheus 集成 Alertmanager：

在 Prometheus 的配置文件 prometheus.yml 中，配置 alerting 部分，指定 Alertmanager 的地址：
```
 alerting:
  alertmanagers:
    - static_configs:
      - targets: ['localhost:9093'] # Alertmanager 默认端口是 9093
```
重启 Prometheus。

测试告警

现在，让我们来测试一下告警功能。你可以通过以下几种方式来触发告警：

模拟数据源异常： 比如，你可以修改 Input 插件的配置，使其无法正常接收数据，或者停止向 Logstash 发送数据。
修改告警规则： 你可以修改告警规则中的阈值，使其更容易触发告警。

当告警被触发后，你会在 Alertmanager 中看到告警信息，并且会收到相应的通知（比如邮件）。

总结：构建完善的 Logstash 监控体系

恭喜你，老铁！我们已经完成了 Logstash Input 插件的监控之旅。通过 Logstash 的监控 API、Prometheus 和 Grafana 的结合，你现在可以：

实时了解 Input 插件的运行状态： 你可以查看 Input 插件处理的事件数量、处理速度、延迟等信息。
快速定位性能瓶颈： 你可以通过监控数据，快速发现哪个 Input 插件是性能瓶颈。
及时发现并解决问题： 你可以通过告警，及时发现并解决 Input 插件的异常情况。
优化资源利用率： 你可以通过监控数据，优化 Logstash 的配置，提高资源利用率。
进行容量规划： 你可以通过监控数据，进行容量规划，避免出现性能问题。

为了构建一个完善的 Logstash 监控体系，你还需要注意以下几点：

持续优化监控指标： 根据实际情况，不断调整和优化监控指标，确保能够全面反映 Logstash 的运行状态。
完善告警规则： 根据实际情况，不断完善告警规则，确保能够及时发现和处理各种异常情况。
自动化部署和管理： 将监控体系的部署和管理自动化，提高效率和可靠性。
结合日志分析： 将监控数据与日志分析结合起来，可以更全面地了解 Logstash 的运行情况。

希望这篇文章对你有所帮助！记住，监控是一个持续优化的过程。随着你的 Logstash 集群规模的扩大，数据的增长，你还需要不断地调整和优化你的监控方案。祝你在 Logstash 的世界里玩得开心！如果你在实践过程中遇到任何问题，随时可以来找我。咱们一起，把 Logstash 玩得更溜！

老码农 Logstash Prometheus Grafana 监控 Input插件

	http.host: "0.0.0.0" # 允许所有 IP 访问，生产环境请谨慎配置
	http.port: 9600 # 监控 API 端口，可以自定义

	input {
	file {
	path => "/var/log/my.log"
	start_position => "beginning"
	}
	}

	{
	"pipelines": {
	"main": {
	"plugins": {
	"inputs": [
	{
	"id": "file_0",
	"name": "file",
	"events": {
	"in": 12345,
	"out": 12345
	},
	"bytes": {
	"in": 1234567,
	"out": 1234567
	},
	"queue_push_duration_in_millis": {
	"avg": 1.23,
	"max": 5.67,
	"total": 12345
	},
	"received": 12345
	}
	]
	}
	}
	}
	}

	scrape_configs:
	- job_name: 'logstash'
	static_configs:
	- targets: ['localhost:9200'] # prometheus-logstash-exporter 默认端口是 9200

	groups:
	- name: logstash_input_alerts
	rules:
	- alert: LogstashInputSlow
	expr: rate(logstash_input_events_total[1m]) < 100
	for: 5m
	labels:
	severity: warning
	annotations:
	summary: "Logstash Input 插件处理缓慢"
	description: "Logstash Input 插件每秒处理事件数低于 100，请检查 Input 插件配置和数据源是否正常。"

	route:
	receiver: 'default-email'
	receivers:
	- name: 'default-email'
	email_configs:
	- to: 'your_email@example.com'
	from: 'alertmanager@example.com'
	smarthost: 'smtp.example.com:587'
	auth_username: 'your_username'
	auth_password: 'your_password'

	alerting:
	alertmanagers:
	- static_configs:
	- targets: ['localhost:9093'] # Alertmanager 默认端口是 9093

Logstash Input 插件监控实战：API、Prometheus 与 Grafana 的完美结合

为什么需要监控 Input 插件？

Logstash 的监控 API：你的第一个朋友

开启 Logstash 的监控 API

访问监控 API

API 存在的问题

Prometheus：监控数据的收集者

Prometheus 的工作原理

配置 Prometheus 监控 Logstash

Prometheus 指标详解

Grafana：监控数据的可视化利器

配置 Grafana 监控 Logstash

打造你的专属 Logstash 监控仪表盘

告警：守护你的 Logstash

Prometheus 告警规则

测试告警

总结：构建完善的 Logstash 监控体系

为什么需要监控 Input 插件？

Logstash 的监控 API：你的第一个朋友

开启 Logstash 的监控 API

访问监控 API

API 存在的问题

Prometheus：监控数据的收集者

Prometheus 的工作原理

配置 Prometheus 监控 Logstash

Prometheus 指标详解

Grafana：监控数据的可视化利器

配置 Grafana 监控 Logstash

打造你的专属 Logstash 监控仪表盘

告警：守护你的 Logstash

Prometheus 告警规则

测试告警

总结：构建完善的 Logstash 监控体系

评论点评