告别日志噩梦：Fluent Bit 在 Kubernetes 生产环境中的实战指南

2025/3/9 07:55:58 96 0 0 0

为什么选择 Fluent Bit？

生产环境部署：实战步骤

1. 部署方式选择

2. 编写 DaemonSet 配置文件

3. 创建 ConfigMap

4. 部署 Fluent Bit

5. 验证部署

生产环境运维：进阶技巧

1. 资源限制和监控

2. 高可用配置

3. 监控告警

4. 故障排除

5. 性能调优

进阶：一些实用技巧

1. 自定义插件

2. 使用正则表达式进行过滤

3. 日志路由

4. 安全配置

总结

大家好，我是老 K。今天我们来聊聊在 Kubernetes (K8s) 生产环境中，如何用 Fluent Bit 解决日志收集和处理这个老大难的问题。作为一名老牌运维，我见过太多因为日志问题引发的线上事故。比如，定位问题耗时数小时，甚至几天；由于日志量过大，存储成本居高不下；关键信息被淹没在海量日志中，等等。而 Fluent Bit，凭借其轻量级、高性能的特性，成为了 Kubernetes 日志收集的绝佳选择。本文将结合我的实战经验，带你深入了解 Fluent Bit 在生产环境中的部署、配置、运维，以及如何应对各种挑战。

为什么选择 Fluent Bit？

在 Kubernetes 的世界里，日志处理的方案有很多，比如 Fluentd、EFK (Elasticsearch, Fluentd, Kibana) 等等。但为什么我更推荐 Fluent Bit 呢？因为它有以下几个显著的优势：

轻量级: Fluent Bit 采用 C 语言编写，占用资源极少，特别适合在资源受限的 Kubernetes 节点上运行。这对于资源紧张的生产环境来说，至关重要。
高性能: Fluent Bit 的处理速度非常快，能够高效地收集和转发日志，几乎不会对应用产生性能影响。
多源支持: Fluent Bit 支持多种日志源，包括 Docker 日志、Kubernetes 日志、系统日志等，满足各种场景的需求。
多目标支持: Fluent Bit 可以将日志转发到多种目标，包括 Elasticsearch、Kafka、云服务商的日志服务等，方便日志的存储和分析。
可扩展性: Fluent Bit 支持插件机制，可以根据需求自定义输入、过滤和输出插件，满足个性化的需求。
与 Kubernetes 深度集成: Fluent Bit 提供了 Kubernetes 插件，可以自动发现和收集 Kubernetes 的日志，简化配置和管理。

生产环境部署：实战步骤

下面，我将详细介绍 Fluent Bit 在 Kubernetes 生产环境中的部署步骤，包括资源限制、高可用配置、监控告警等方面。

1. 部署方式选择

Fluent Bit 在 Kubernetes 中有多种部署方式，最常见的是 DaemonSet 和 Sidecar。我推荐使用 DaemonSet，因为它可以确保在每个节点上都运行一个 Fluent Bit 实例，从而收集所有 Pod 的日志。

2. 编写 DaemonSet 配置文件

以下是一个 Fluent Bit DaemonSet 的示例配置文件，你可以根据自己的实际情况进行修改：

 apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: fluent-bit
  namespace: kube-system # 建议部署在 kube-system 命名空间
  labels:
    k8s-app: fluent-bit
spec:
  selector:
    matchLabels:
      k8s-app: fluent-bit
  template:
    metadata:
      labels:
        k8s-app: fluent-bit
    spec:
      containers:
      - name: fluent-bit
        image: fluent/fluent-bit:2.1.1 # 使用合适的 Fluent Bit 版本
        imagePullPolicy: IfNotPresent
        ports:
        - containerPort: 2020
          name: http
        resources:
          limits:
            cpu: 100m
            memory: 200Mi
          requests:
            cpu: 50m
            memory: 100Mi
        volumeMounts:
        - name: varlog
          mountPath: /var/log
        - name: varlibdockercontainers
          mountPath: /var/lib/docker/containers
          readOnly: true
        - name: fluent-bit-config
          mountPath: /fluent-bit/etc/ # 将配置文件挂载到容器内
      volumes:
      - name: varlog
        hostPath:
          path: /var/log
      - name: varlibdockercontainers
        hostPath:
          path: /var/lib/docker/containers
      - name: fluent-bit-config
        configMap:
          name: fluent-bit-config # 关联 ConfigMap
          items:
          - key: fluent-bit.conf
            path: fluent-bit.conf
          - key: parsers.conf
            path: parsers.conf

关键点解释：

image: 指定 Fluent Bit 的镜像版本。请根据实际情况选择合适的版本，并定期更新以获取最新的功能和修复。
resources: 设置资源限制，防止 Fluent Bit 占用过多资源影响其他应用。可以根据集群规模和日志量进行调整。我通常建议设置 CPU Limit 为 100m，Memory Limit 为 200Mi。
volumeMounts: 挂载宿主机的 /var/log 和 /var/lib/docker/containers 目录，以便收集容器日志。
volumes: 定义宿主机目录挂载，以及 ConfigMap 挂载。
configMap: 通过 ConfigMap 挂载 Fluent Bit 的配置文件，方便配置管理。

3. 创建 ConfigMap

接下来，我们需要创建 ConfigMap，用于存储 Fluent Bit 的配置文件。以下是一个示例配置文件，包括 fluent-bit.conf 和 parsers.conf。

fluent-bit.conf:

 [SERVICE]
    Flush        1
    Grace        5
    Log_Level    info
    Parsers_File parsers.conf
 
[INPUT]
    Name              tail
    Tag               kube.* # 匹配所有 Kubernetes 的日志
    Path              /var/log/containers/*.log
    Parser            docker # 使用 Docker 格式解析日志
    DB                /fluent-bit/tail.db
    DB.Sync           Normal
    Read_from_Head    True
 
[FILTER]
    Name                kubernetes
    Match               kube.*
    Kube_URL            https://kubernetes.default.svc:443
    Kube_CA_File        /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
    Kube_Token_File     /var/run/secrets/kubernetes.io/serviceaccount/token
    Kube_Tag_Prefix     kube.
    Merge_Log           On
    Keep_Log            Off
    K8S_URL             On
 
[OUTPUT]
    Name  es
    Match * # 匹配所有日志
    Host  elasticsearch-cluster.kube-logging.svc.cluster.local # Elasticsearch 的服务地址
    Port  9200
    Index  k8s_logs
    Type  _doc
    Logstash_Format On
    Retry_Limit 3

parsers.conf:

 [PARSER]
    Name   docker
    Format json
    Time_Key time
    Time_Format %Y-%m-%dT%H:%M:%S.%L%z
    #Time_Format %Y-%m-%dT%H:%M:%S.%L
    Decode_Field_As   message json
 
[PARSER]
    Name        json
    Format      json
    Time_Key    time
    Time_Format %Y-%m-%dT%H:%M:%S.%L%z

关键点解释：

[SERVICE]: 定义 Fluent Bit 的全局配置，例如刷新间隔、日志级别等。
[INPUT]: 定义日志输入源。这里使用 tail 插件，从 /var/log/containers/*.log 收集容器日志。Tag 用于给日志打标签，方便后续过滤。Parser 指定使用 docker 解析器。
[FILTER]: 定义日志过滤规则。这里使用 kubernetes 插件，用于丰富日志信息，例如添加 Pod 名称、命名空间等。Kube_URL、Kube_CA_File、Kube_Token_File 用于访问 Kubernetes API，获取元数据。
[OUTPUT]: 定义日志输出目标。这里使用 es 插件，将日志发送到 Elasticsearch。Host 和 Port 指定 Elasticsearch 的地址和端口。Index 指定 Elasticsearch 的索引。Logstash_Format On 用于兼容 Logstash 格式，方便与 Kibana 集成。
[PARSER]: 定义日志解析器。这里定义了 docker 和 json 两种解析器，用于解析不同格式的日志。docker 解析器用于解析 Docker 容器日志，json 解析器用于解析 JSON 格式的日志。

创建 ConfigMap 的 YAML 文件示例：

 apiVersion: v1
kind: ConfigMap
metadata:
  name: fluent-bit-config
  namespace: kube-system
data:
  fluent-bit.conf: |
    [SERVICE]
        Flush        1
        Grace        5
        Log_Level    info
        Parsers_File parsers.conf
 
    [INPUT]
        Name              tail
        Tag               kube.*
        Path              /var/log/containers/*.log
        Parser            docker
        DB                /fluent-bit/tail.db
        DB.Sync           Normal
        Read_from_Head    True
 
    [FILTER]
        Name                kubernetes
        Match               kube.*
        Kube_URL            https://kubernetes.default.svc:443
        Kube_CA_File        /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        Kube_Token_File     /var/run/secrets/kubernetes.io/serviceaccount/token
        Kube_Tag_Prefix     kube.
        Merge_Log           On
        Keep_Log            Off
        K8S_URL             On
 
    [OUTPUT]
        Name  es
        Match *
        Host  elasticsearch-cluster.kube-logging.svc.cluster.local
        Port  9200
        Index  k8s_logs
        Type  _doc
        Logstash_Format On
        Retry_Limit 3
  parsers.conf: |
    [PARSER]
        Name   docker
        Format json
        Time_Key time
        Time_Format %Y-%m-%dT%H:%M:%S.%L%z
        #Time_Format %Y-%m-%dT%H:%M:%S.%L
        Decode_Field_As   message json
 
    [PARSER]
        Name        json
        Format      json
        Time_Key    time
        Time_Format %Y-%m-%dT%H:%M:%S.%L%z

4. 部署 Fluent Bit

使用 kubectl 命令创建 DaemonSet 和 ConfigMap：

 kubectl apply -f fluent-bit-config.yaml
kubectl apply -f fluent-bit-ds.yaml

5. 验证部署

部署完成后，可以通过以下方式验证 Fluent Bit 是否正常工作：

查看 Pod 状态: 使用 kubectl get pods -n kube-system -l k8s-app=fluent-bit 查看 Fluent Bit Pod 的状态，确保它们都处于 Running 状态。
查看 Pod 日志: 使用 kubectl logs <fluent-bit-pod-name> -n kube-system 查看 Fluent Bit Pod 的日志，确认没有报错。
检查 Elasticsearch: 登录到 Elasticsearch，检查是否有新的索引 k8s_logs，并且索引中包含 Kubernetes 的日志。

生产环境运维：进阶技巧

1. 资源限制和监控

在生产环境中，资源限制至关重要。Fluent Bit 运行时会消耗 CPU 和内存，如果资源分配不足，可能导致性能下降，甚至 OOM。因此，我们需要合理设置 resources，并对 Fluent Bit 的资源使用进行监控。

监控指标: 监控 Fluent Bit 的 CPU 使用率、内存使用率、磁盘 I/O、日志处理速度等指标。可以使用 Prometheus + Grafana 组合进行监控。Fluent Bit 提供了 Prometheus 插件，可以方便地暴露监控指标。
告警规则: 设置告警规则，当 Fluent Bit 的资源使用超过阈值时，及时收到告警。例如，当 CPU 使用率超过 80%，或内存使用率超过 90% 时，触发告警。
资源调整: 根据监控结果，及时调整 Fluent Bit 的资源限制。如果 CPU 或内存使用率过高，可以适当增加资源限制。如果日志处理速度过慢，可以考虑优化配置或增加 Fluent Bit 实例数量。

2. 高可用配置

为了确保日志收集的可靠性，我们需要配置 Fluent Bit 的高可用。在 Kubernetes 中，可以通过以下方式实现高可用：

使用 DaemonSet: DaemonSet 可以确保在每个节点上都运行一个 Fluent Bit 实例，即使某个节点宕机，其他节点上的 Fluent Bit 实例仍然可以继续收集日志。
配置输出端的冗余: 例如，如果将日志发送到 Elasticsearch，可以配置多个 Elasticsearch 节点，并配置 Fluent Bit 的输出插件使用负载均衡的方式将日志发送到多个节点。这样，即使某个 Elasticsearch 节点宕机，Fluent Bit 仍然可以继续发送日志。
使用 Fluent Bit 的重试机制: Fluent Bit 的输出插件通常都支持重试机制。当发送日志失败时，Fluent Bit 会自动重试，直到成功或达到重试限制。可以通过配置 Retry_Limit 参数来设置重试次数。

3. 监控告警

除了资源监控，我们还需要对 Fluent Bit 的运行状态进行监控，并设置告警规则，及时发现和解决问题。

监控指标: 除了资源指标，还可以监控 Fluent Bit 的错误日志、输入输出速率、处理延迟等指标。这些指标可以帮助我们了解 Fluent Bit 的运行状态，并及时发现潜在问题。
告警规则: 设置告警规则，当 Fluent Bit 出现错误、输入输出速率异常、处理延迟过长时，触发告警。例如，当 Fluent Bit 的错误日志数量超过一定阈值时，触发告警。
日志分析: 定期分析 Fluent Bit 的日志，查找潜在问题。例如，检查是否有大量的连接超时错误、解析错误等。

4. 故障排除

在生产环境中，难免会遇到各种各样的故障。以下是一些常见的故障排除方法：

查看 Pod 日志: 使用 kubectl logs 查看 Fluent Bit Pod 的日志，查找错误信息。日志中通常会包含详细的错误信息，例如配置错误、连接失败等。
检查配置文件: 仔细检查 Fluent Bit 的配置文件，确保配置正确。特别是输入、过滤和输出插件的配置，以及 Kubernetes API 的访问权限。
测试连接: 使用 curl 或其他工具测试 Fluent Bit 与输出端的连接是否正常。例如，测试 Fluent Bit 与 Elasticsearch 的连接是否正常。
调试模式: 可以在配置文件中开启调试模式，例如将 Log_Level 设置为 debug，获取更详细的日志信息。但要注意，调试模式会增加日志量，影响性能，只在排查问题时使用。
检查网络: 确保 Fluent Bit 所在的 Pod 可以访问输出端。例如，检查防火墙设置、网络策略等，确保网络连接正常。

5. 性能调优

为了提高 Fluent Bit 的性能，可以进行以下调优：

调整并发度: 可以调整 Fluent Bit 的并发度，例如使用多线程处理日志。但要注意，并发度越高，CPU 占用也越高，需要根据实际情况进行调整。
优化解析器: 如果日志格式比较复杂，可以优化解析器的配置，提高解析速度。例如，可以使用更高效的正则表达式解析器。
选择合适的输出插件: 不同的输出插件性能差异很大。例如，es 插件性能相对较好，而 http 插件性能可能较差。可以根据实际情况选择合适的输出插件。
压缩日志: 可以在输出端压缩日志，减少存储空间和网络带宽的占用。例如，可以将日志压缩成 gzip 格式。
调整刷新间隔: 调整 Flush 参数，控制日志刷新的频率。刷新间隔越短，日志延迟越低，但也会增加 CPU 占用。可以根据实际情况进行调整。

进阶：一些实用技巧

1. 自定义插件

Fluent Bit 的插件机制非常强大，允许你根据自己的需求自定义插件。比如，你可以编写一个插件，用于清洗日志，过滤掉敏感信息；或者编写一个插件，用于将日志转换成特定的格式。自定义插件可以极大地提高 Fluent Bit 的灵活性和适用性。

2. 使用正则表达式进行过滤

在 FILTER 部分，可以使用正则表达式进行日志过滤。这可以帮助你更精确地匹配和过滤日志，例如，只保留包含特定关键字的日志，或者过滤掉包含特定错误信息的日志。

3. 日志路由

Fluent Bit 支持日志路由，你可以根据日志的 Tag 或其他属性，将日志发送到不同的输出端。例如，你可以将应用程序的日志发送到 Elasticsearch，将系统日志发送到 Kafka。这可以帮助你更好地组织和管理日志。

4. 安全配置

在生产环境中，安全性至关重要。在配置 Fluent Bit 时，需要注意以下几点：

访问控制: 限制 Fluent Bit 对 Kubernetes API 和输出端的访问权限。例如，使用 RBAC (Role-Based Access Control) 限制 Fluent Bit 的访问范围。
数据加密: 确保日志在传输过程中是加密的。例如，使用 TLS 加密与 Elasticsearch 的连接。
敏感信息保护: 避免在日志中泄露敏感信息，例如密码、API 密钥等。可以使用插件进行日志清洗，过滤掉敏感信息。

总结

Fluent Bit 是一个非常强大的日志收集和处理工具，特别适合在 Kubernetes 生产环境中使用。通过本文的介绍，相信你已经对 Fluent Bit 的部署、配置、运维有了更深入的了解。记住，在生产环境中，需要特别注意资源限制、高可用配置、监控告警和故障排除。希望这些实战经验能帮助你构建稳定、高效的 Kubernetes 日志系统，告别日志噩梦！

希望这篇文章对你有所帮助。如果你有任何问题，欢迎在评论区留言，我会尽力解答。

祝你运维愉快！

老K Kubernetes Fluent Bit 日志收集运维

	apiVersion: apps/v1
	kind: DaemonSet
	metadata:
	name: fluent-bit
	namespace: kube-system # 建议部署在 kube-system 命名空间
	labels:
	k8s-app: fluent-bit
	spec:
	selector:
	matchLabels:
	k8s-app: fluent-bit
	template:
	metadata:
	labels:
	k8s-app: fluent-bit
	spec:
	containers:
	- name: fluent-bit
	image: fluent/fluent-bit:2.1.1 # 使用合适的 Fluent Bit 版本
	imagePullPolicy: IfNotPresent
	ports:
	- containerPort: 2020
	name: http
	resources:
	limits:
	cpu: 100m
	memory: 200Mi
	requests:
	cpu: 50m
	memory: 100Mi
	volumeMounts:
	- name: varlog
	mountPath: /var/log
	- name: varlibdockercontainers
	mountPath: /var/lib/docker/containers
	readOnly: true
	- name: fluent-bit-config
	mountPath: /fluent-bit/etc/ # 将配置文件挂载到容器内
	volumes:
	- name: varlog
	hostPath:
	path: /var/log
	- name: varlibdockercontainers
	hostPath:
	path: /var/lib/docker/containers
	- name: fluent-bit-config
	configMap:
	name: fluent-bit-config # 关联 ConfigMap
	items:
	- key: fluent-bit.conf
	path: fluent-bit.conf
	- key: parsers.conf
	path: parsers.conf

	[SERVICE]
	Flush 1
	Grace 5
	Log_Level info
	Parsers_File parsers.conf

	[INPUT]
	Name tail
	Tag kube.* # 匹配所有 Kubernetes 的日志
	Path /var/log/containers/*.log
	Parser docker # 使用 Docker 格式解析日志
	DB /fluent-bit/tail.db
	DB.Sync Normal
	Read_from_Head True

	[FILTER]
	Name kubernetes
	Match kube.*
	Kube_URL https://kubernetes.default.svc:443
	Kube_CA_File /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
	Kube_Token_File /var/run/secrets/kubernetes.io/serviceaccount/token
	Kube_Tag_Prefix kube.
	Merge_Log On
	Keep_Log Off
	K8S_URL On

	[OUTPUT]
	Name es
	Match * # 匹配所有日志
	Host elasticsearch-cluster.kube-logging.svc.cluster.local # Elasticsearch 的服务地址
	Port 9200
	Index k8s_logs
	Type _doc
	Logstash_Format On
	Retry_Limit 3

	[PARSER]
	Name docker
	Format json
	Time_Key time
	Time_Format %Y-%m-%dT%H:%M:%S.%L%z
	#Time_Format %Y-%m-%dT%H:%M:%S.%L
	Decode_Field_As message json

	[PARSER]
	Name json
	Format json
	Time_Key time
	Time_Format %Y-%m-%dT%H:%M:%S.%L%z

	apiVersion: v1
	kind: ConfigMap
	metadata:
	name: fluent-bit-config
	namespace: kube-system
	data:
	fluent-bit.conf: \|
	[SERVICE]
	Flush 1
	Grace 5
	Log_Level info
	Parsers_File parsers.conf

	[INPUT]
	Name tail
	Tag kube.*
	Path /var/log/containers/*.log
	Parser docker
	DB /fluent-bit/tail.db
	DB.Sync Normal
	Read_from_Head True

	[FILTER]
	Name kubernetes
	Match kube.*
	Kube_URL https://kubernetes.default.svc:443
	Kube_CA_File /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
	Kube_Token_File /var/run/secrets/kubernetes.io/serviceaccount/token
	Kube_Tag_Prefix kube.
	Merge_Log On
	Keep_Log Off
	K8S_URL On

	[OUTPUT]
	Name es
	Match *
	Host elasticsearch-cluster.kube-logging.svc.cluster.local
	Port 9200
	Index k8s_logs
	Type _doc
	Logstash_Format On
	Retry_Limit 3
	parsers.conf: \|
	[PARSER]
	Name docker
	Format json
	Time_Key time
	Time_Format %Y-%m-%dT%H:%M:%S.%L%z
	#Time_Format %Y-%m-%dT%H:%M:%S.%L
	Decode_Field_As message json

	[PARSER]
	Name json
	Format json
	Time_Key time
	Time_Format %Y-%m-%dT%H:%M:%S.%L%z

	kubectl apply -f fluent-bit-config.yaml
	kubectl apply -f fluent-bit-ds.yaml

告别日志噩梦：Fluent Bit 在 Kubernetes 生产环境中的实战指南

为什么选择 Fluent Bit？

生产环境部署：实战步骤

1. 部署方式选择

2. 编写 DaemonSet 配置文件

3. 创建 ConfigMap

4. 部署 Fluent Bit

5. 验证部署

生产环境运维：进阶技巧

1. 资源限制和监控

2. 高可用配置

3. 监控告警

4. 故障排除

5. 性能调优

进阶：一些实用技巧

1. 自定义插件

2. 使用正则表达式进行过滤

3. 日志路由

4. 安全配置

总结

为什么选择 Fluent Bit？

生产环境部署：实战步骤

1. 部署方式选择

2. 编写 DaemonSet 配置文件

3. 创建 ConfigMap

4. 部署 Fluent Bit

5. 验证部署

生产环境运维：进阶技巧

1. 资源限制和监控

2. 高可用配置

3. 监控告警

4. 故障排除

5. 性能调优

进阶：一些实用技巧

1. 自定义插件

2. 使用正则表达式进行过滤

3. 日志路由

4. 安全配置

总结

评论点评