Elasticsearch Watcher 实战：监控缓存指标，守护系统稳定

2025/3/14 12:29:46 32 0 0 0

1. Watcher 是什么？

2. 准备工作：安装和配置 Watcher

3. 监控缓存指标：实战开始！

3.1. 编写 Watcher：定义触发器、输入和动作

3.2. 报警规则详解

3.3. 报警动作：邮件和索引

4. 进阶玩法：自定义报警和优化

4.1. 自定义报警规则

4.2. 优化 Watcher 性能

5. 常见问题和解决方案

5.1. Watcher 无法启动

5.2. 报警邮件无法发送

5.3. 报警信息不准确

6. 总结

嘿，老铁们！我是老码农，今天咱们聊聊 Elasticsearch (ES) 里的一个超级好用的功能——Watcher。这玩意儿能干啥？简单来说，就是帮你 24 小时盯着 ES 的各种指标，一旦发现问题，立马报警，让你第一时间知道，省心又放心！

这次咱们的目标很明确：监控缓存指标。为啥要监控缓存？缓存就像咱们电脑里的内存，数据进进出出，速度飞快。如果缓存用满了，或者出现异常，ES 的性能就会大打折扣，甚至可能导致服务崩溃。所以，监控缓存，就是守护系统稳定，让你的项目跑得更溜！

1. Watcher 是什么？

首先，得搞清楚 Watcher 是个啥。简单来说，它就像一个“哨兵”，时刻观察着你的 ES 集群。你可以告诉它要关注哪些指标，设置报警规则。当这些指标达到你设定的阈值时，Watcher 就会触发相应的操作，比如发送邮件、Slack 消息，或者执行一些自定义的脚本。简直就是运维人员的贴心小助手！

Watcher 主要由三部分组成：

触发器 (Trigger)：定义了 Watcher 什么时候运行。比如，可以设置定时运行，或者当某个事件发生时触发。
输入 (Input)：定义了 Watcher 从哪里获取数据。比如，可以从 ES 的索引、API，或者其他数据源获取。
动作 (Action)：定义了 Watcher 触发后要做什么。比如，发送邮件、Slack 消息，或者执行脚本。

2. 准备工作：安装和配置 Watcher

首先，确保你已经安装了 Elasticsearch。如果还没有，赶紧去官网下载安装包，按照官方文档一步步来，这里就不赘述了。

Watcher 是 ES 的一个付费功能，但在很多情况下，你可以使用免费的试用版。试用版的功能已经足够满足咱们的需求了。

安装 Watcher 的步骤如下：

检查许可证： 在 ES 的 config 目录下找到 elasticsearch.yml 文件，检查是否启用了 Watcher 功能。如果你的 ES 是 7.x 以上版本，Watcher 默认是启用的，可以跳过此步骤。
```
 xpack.monitoring.enabled: true
xpack.watcher.enabled: true
```
如果没有启用，请取消注释并重启 ES。

启动 Watcher： 确保 Watcher 插件已启动。可以使用以下命令检查：

GET /_license

如果返回信息中包含 watcher 的许可证信息，说明 Watcher 已启用。

如果没有启用，则需要手动启动。可以使用以下命令启动：

 PUT _license
{
  "license": {
    "expiry_date_in_millis": 1672531199000,
    "type": "trial",
    "issue_date_in_millis": 1664947200000,
    "max_nodes": 1000,
    "issued_to": "trial",
    "issuer": {
      "type": "ES",
      "account": "trial"
    },
    "signature": "xxx"
  }
}

注意： 试用许可证有过期时间，过期后需要重新申请或购买正式许可证。

3. 监控缓存指标：实战开始！

接下来，咱们就来实战一下，监控 ES 的缓存指标。主要监控以下几个指标：

Query Cache (查询缓存) 的命中率： 越高越好，说明缓存效果好，查询速度快。
Query Cache 的大小： 超过一定阈值，说明缓存占用资源过多，可能影响性能。
Field Data Cache (字段数据缓存) 的大小： 同样，超过一定阈值，也可能影响性能。
Request Cache (请求缓存) 的命中率： 类似于 Query Cache，越高越好。

3.1. 编写 Watcher：定义触发器、输入和动作

咱们要创建一个 Watcher，用来监控这些指标。具体步骤如下：

创建 Watcher： 使用 ES 的 API 创建 Watcher。可以通过 Kibana 的 Dev Tools，或者使用 curl 命令来完成。

 PUT _watcher/watch/cache_monitor
{
  "trigger": {
    "schedule": {
      "interval": "1m"  // 每分钟运行一次
    }
  },
  "input": {
    "http": {
      "request": {
        "method": "GET",
        "url": "http://localhost:9200/_nodes/stats/indices,jvm" // 获取节点统计信息
      }
    }
  },
  "condition": {
    "script": {
      "source": "return ctx.payload.nodes.forEach(node => {\n  let indices = node.indices;\n  if (indices) {\n    let queryCache = indices.query_cache;\n    let fielddata = indices.fielddata;\n    let requestCache = indices.request_cache;\n    if (queryCache) {\n      if (queryCache.hit_count > 0 && queryCache.miss_count > 0) {\n        let queryCacheHitRatio = queryCache.hit_count / (queryCache.hit_count + queryCache.miss_count);\n        if (queryCacheHitRatio < 0.7) { // 查询缓存命中率低于 70%
      ctx.metadata.queryCacheHitRatio = queryCacheHitRatio;
      return true; // 满足报警条件
    }
  }
}
 
if (fielddata && fielddata.memory_size_in_bytes > 1000000000) { // 字段数据缓存超过 1GB
  ctx.metadata.fielddataMemorySize = fielddata.memory_size_in_bytes;
  return true; // 满足报警条件
}
 
if (requestCache) {
  if (requestCache.hit_count > 0 && requestCache.miss_count > 0) {
    let requestCacheHitRatio = requestCache.hit_count / (requestCache.hit_count + requestCache.miss_count);
    if (requestCacheHitRatio < 0.7) { // 请求缓存命中率低于 70%
      ctx.metadata.requestCacheHitRatio = requestCacheHitRatio;
      return true; // 满足报警条件
    }
  }
}

}
return false; // 未满足报警条件
});"
}
},
"actions": {
"send_email": {
"email": {
"to": "your_email@example.com", // 替换成你的邮箱
"subject": "ES 缓存异常报警",
"body": {
"html": "

ES 缓存出现异常！

查询缓存命中率：{{ctx.metadata.queryCacheHitRatio}}

字段数据缓存大小：{{ctx.metadata.fielddataMemorySize}} bytes

请求缓存命中率：{{ctx.metadata.requestCacheHitRatio}}

"
}
}
},
"index_data": {
"index": "watcher_cache_alerts",
"doc_type": "_doc",
"body": {
"timestamp": "{{ctx.trigger.triggered_time}}",
"query_cache_hit_ratio": "{{ctx.metadata.queryCacheHitRatio}}",
"fielddata_memory_size": "{{ctx.metadata.fielddataMemorySize}}",
"request_cache_hit_ratio": "{{ctx.metadata.requestCacheHitRatio}}"
}
}
}
}
```

 **解释：**
 
*   `trigger`：使用 `schedule` 触发器，每分钟运行一次。
*   `input`：使用 `http` 输入，从 `_nodes/stats/indices,jvm` API 获取节点统计信息。
*   `condition`：使用 `script` 条件，编写 Groovy 脚本，判断缓存指标是否异常。
    *   查询缓存命中率低于 70% 或字段数据缓存大小超过 1GB，则满足报警条件。
    *   请求缓存命中率低于 70% 则满足报警条件。
*   `actions`：定义了报警动作，包括：
    *   `send_email`：发送邮件，包含报警信息。
    *   `index_data`: 索引报警数据，方便后续分析。

启用 Watcher： 默认情况下，Watcher 是启用的。如果未启用，可以使用以下命令启用：
```
PUT _watcher/watch/cache_monitor/_start
```
测试 Watcher： 可以手动触发 Watcher，看看是否能正常工作。
```
POST _watcher/watch/cache_monitor/_execute
```
查看执行结果，检查是否收到了邮件，或者在 watcher_cache_alerts 索引中查看是否有数据。

3.2. 报警规则详解

在上面的 Watcher 中，咱们设置了几个报警规则，下面详细解释一下：

查询缓存命中率：

if (queryCache.hit_count > 0 && queryCache.miss_count > 0) {
    let queryCacheHitRatio = queryCache.hit_count / (queryCache.hit_count + queryCache.miss_count);
    if (queryCacheHitRatio < 0.7) { // 查询缓存命中率低于 70%
      ctx.metadata.queryCacheHitRatio = queryCacheHitRatio;
      return true; // 满足报警条件
    }
}

如果查询缓存的命中率低于 70%，就会触发报警。命中率越低，说明缓存效果越差，ES 的性能可能受到影响。这个阈值可以根据实际情况进行调整。

字段数据缓存大小：
```
if (fielddata && fielddata.memory_size_in_bytes > 1000000000) { // 字段数据缓存超过 1GB
  ctx.metadata.fielddataMemorySize = fielddata.memory_size_in_bytes;
  return true; // 满足报警条件
}
```
如果字段数据缓存的大小超过 1GB，就会触发报警。字段数据缓存占用过多内存，可能会导致 ES 性能下降。这个阈值也可以根据实际情况进行调整。

请求缓存命中率：

if (requestCache.hit_count > 0 && requestCache.miss_count > 0) {
    let requestCacheHitRatio = requestCache.hit_count / (requestCache.hit_count + requestCache.miss_count);
    if (requestCacheHitRatio < 0.7) { // 请求缓存命中率低于 70%
      ctx.metadata.requestCacheHitRatio = requestCacheHitRatio;
      return true; // 满足报警条件
    }
}

如果请求缓存的命中率低于 70%，就会触发报警。请求缓存的命中率越低，说明缓存效果越差，ES 的性能可能受到影响。这个阈值可以根据实际情况进行调整。

3.3. 报警动作：邮件和索引

咱们设置了两个报警动作：

发送邮件：

 "send_email": {
  "email": {
    "to": "your_email@example.com", // 替换成你的邮箱
    "subject": "ES 缓存异常报警",
    "body": {
      "html": "<p>ES 缓存出现异常！</p>\n                    <p>查询缓存命中率：{{ctx.metadata.queryCacheHitRatio}}</p>\n                    <p>字段数据缓存大小：{{ctx.metadata.fielddataMemorySize}} bytes</p>\n                    <p>请求缓存命中率：{{ctx.metadata.requestCacheHitRatio}}</p>"
    }
  }
}

当触发报警时，会发送一封邮件到你指定的邮箱。邮件内容包含了报警信息，方便你及时了解情况。

索引报警数据：

 "index_data": {
    "index": "watcher_cache_alerts",
    "doc_type": "_doc",
    "body": {
        "timestamp": "{{ctx.trigger.triggered_time}}",
        "query_cache_hit_ratio": "{{ctx.metadata.queryCacheHitRatio}}",
        "fielddata_memory_size": "{{ctx.metadata.fielddataMemorySize}}",
        "request_cache_hit_ratio": "{{ctx.metadata.requestCacheHitRatio}}"
    }
}

将报警信息存储到 ES 的一个索引中，方便后续分析。你可以通过 Kibana 等工具，对这些数据进行可视化，更直观地了解缓存的运行状况。

4. 进阶玩法：自定义报警和优化

4.1. 自定义报警规则

上面的例子只是一个简单的开始，你可以根据自己的需求，自定义更复杂的报警规则。比如：

多条件报警： 结合多个指标，只有当多个指标同时满足条件时，才触发报警。
基于时间窗口的报警： 在一定的时间窗口内，如果指标持续异常，才触发报警，避免误报。
使用不同的触发器： 除了定时触发，还可以使用事件触发，比如当某个索引的文档数量超过阈值时，触发报警。

4.2. 优化 Watcher 性能

优化脚本： 尽量优化 Groovy 脚本的性能，避免在脚本中进行耗时操作。
调整运行频率： 根据实际情况，调整 Watcher 的运行频率。过高的频率会增加 ES 的负载，过低的频率又可能导致报警不及时。
使用缓存： 尽量使用 ES 的缓存，减少 API 的调用次数。

5. 常见问题和解决方案

5.1. Watcher 无法启动

检查许可证： 确保你已经正确安装并启用了 Watcher，并且许可证有效。
检查配置： 检查 elasticsearch.yml 文件中的配置是否正确。
查看日志： 查看 ES 的日志，查找错误信息。

5.2. 报警邮件无法发送

检查邮件配置： 确保你已经正确配置了邮件服务器，并且 ES 可以访问邮件服务器。
检查邮箱地址： 确保你填写的邮箱地址是正确的。
检查防火墙： 检查防火墙是否阻止了邮件发送。elasticsearch.yml 中配置 xpack.notification.email.account.default.profile: smtp，然后配置 xpack.notification.email.account.default.smtp.host: smtp.example.com 等信息。

5.3. 报警信息不准确

检查指标： 检查你监控的指标是否正确，是否符合实际情况。
调整阈值： 根据实际情况，调整报警阈值。
优化脚本： 优化 Groovy 脚本，确保计算结果准确。

6. 总结

通过本文，咱们深入了解了 Elasticsearch Watcher 的强大功能，并实战了如何使用 Watcher 监控缓存指标，设置报警规则。希望这些对你有帮助！

记住几个关键点：

Watcher 是一个强大的监控工具，可以帮助你及时发现问题，保障系统稳定。
灵活运用触发器、输入和动作，可以实现各种自定义的监控需求。
不断优化 Watcher 的性能，让它更好地为你的项目服务。

希望这篇文章能帮助你更好地使用 Elasticsearch Watcher，守护你的系统，成为一个更厉害的 ES 运维工程师！咱们下次再见！

老码农 Elasticsearch Watcher 缓存监控运维报警

	PUT _license
	{
	"license": {
	"expiry_date_in_millis": 1672531199000,
	"type": "trial",
	"issue_date_in_millis": 1664947200000,
	"max_nodes": 1000,
	"issued_to": "trial",
	"issuer": {
	"type": "ES",
	"account": "trial"
	},
	"signature": "xxx"
	}
	}

	PUT _watcher/watch/cache_monitor
	{
	"trigger": {
	"schedule": {
	"interval": "1m" // 每分钟运行一次
	}
	},
	"input": {
	"http": {
	"request": {
	"method": "GET",
	"url": "http://localhost:9200/_nodes/stats/indices,jvm" // 获取节点统计信息
	}
	}
	},
	"condition": {
	"script": {
	"source": "return ctx.payload.nodes.forEach(node => {\n let indices = node.indices;\n if (indices) {\n let queryCache = indices.query_cache;\n let fielddata = indices.fielddata;\n let requestCache = indices.request_cache;\n if (queryCache) {\n if (queryCache.hit_count > 0 && queryCache.miss_count > 0) {\n let queryCacheHitRatio = queryCache.hit_count / (queryCache.hit_count + queryCache.miss_count);\n if (queryCacheHitRatio < 0.7) { // 查询缓存命中率低于 70%
	ctx.metadata.queryCacheHitRatio = queryCacheHitRatio;
	return true; // 满足报警条件
	}
	}
	}

	if (fielddata && fielddata.memory_size_in_bytes > 1000000000) { // 字段数据缓存超过 1GB
	ctx.metadata.fielddataMemorySize = fielddata.memory_size_in_bytes;
	return true; // 满足报警条件
	}

	if (requestCache) {
	if (requestCache.hit_count > 0 && requestCache.miss_count > 0) {
	let requestCacheHitRatio = requestCache.hit_count / (requestCache.hit_count + requestCache.miss_count);
	if (requestCacheHitRatio < 0.7) { // 请求缓存命中率低于 70%
	ctx.metadata.requestCacheHitRatio = requestCacheHitRatio;
	return true; // 满足报警条件
	}
	}
	}

	解释：

	* `trigger`：使用 `schedule` 触发器，每分钟运行一次。
	* `input`：使用 `http` 输入，从 `_nodes/stats/indices,jvm` API 获取节点统计信息。
	* `condition`：使用 `script` 条件，编写 Groovy 脚本，判断缓存指标是否异常。
	* 查询缓存命中率低于 70% 或字段数据缓存大小超过 1GB，则满足报警条件。
	* 请求缓存命中率低于 70% 则满足报警条件。
	* `actions`：定义了报警动作，包括：
	* `send_email`：发送邮件，包含报警信息。
	* `index_data`: 索引报警数据，方便后续分析。

	"send_email": {
	"email": {
	"to": "your_email@example.com", // 替换成你的邮箱
	"subject": "ES 缓存异常报警",
	"body": {
	"html": "<p>ES 缓存出现异常！</p>\n <p>查询缓存命中率：{{ctx.metadata.queryCacheHitRatio}}</p>\n <p>字段数据缓存大小：{{ctx.metadata.fielddataMemorySize}} bytes</p>\n <p>请求缓存命中率：{{ctx.metadata.requestCacheHitRatio}}</p>"
	}
	}
	}

	"index_data": {
	"index": "watcher_cache_alerts",
	"doc_type": "_doc",
	"body": {
	"timestamp": "{{ctx.trigger.triggered_time}}",
	"query_cache_hit_ratio": "{{ctx.metadata.queryCacheHitRatio}}",
	"fielddata_memory_size": "{{ctx.metadata.fielddataMemorySize}}",
	"request_cache_hit_ratio": "{{ctx.metadata.requestCacheHitRatio}}"
	}
	}

	xpack.monitoring.enabled: true
	xpack.watcher.enabled: true

Elasticsearch Watcher 实战：监控缓存指标，守护系统稳定

1. Watcher 是什么？

2. 准备工作：安装和配置 Watcher

3. 监控缓存指标：实战开始！

3.1. 编写 Watcher：定义触发器、输入和动作

3.2. 报警规则详解

3.3. 报警动作：邮件和索引

4. 进阶玩法：自定义报警和优化

4.1. 自定义报警规则

4.2. 优化 Watcher 性能

5. 常见问题和解决方案

5.1. Watcher 无法启动

5.2. 报警邮件无法发送

5.3. 报警信息不准确

6. 总结

1. Watcher 是什么？

2. 准备工作：安装和配置 Watcher

3. 监控缓存指标：实战开始！

3.1. 编写 Watcher：定义触发器、输入和动作

3.2. 报警规则详解

3.3. 报警动作：邮件和索引

4. 进阶玩法：自定义报警和优化

4.1. 自定义报警规则

4.2. 优化 Watcher 性能

5. 常见问题和解决方案

5.1. Watcher 无法启动

5.2. 报警邮件无法发送

5.3. 报警信息不准确

6. 总结

评论点评