Files
devops/monitor.md
2025-09-17 16:08:16 +08:00

1.2 KiB
Raw Permalink Blame History

监控技术

zabbix + grafana prometheus + grafana

Thanos

我们需要在TKE集群部署Prometheus主动采集workload负载指标和用户自定义指标随着集群规模不断扩大Promethues不支持容灾部署不支持分布式单实例容量瓶颈等问题也凸显出来最后我们放弃了原生的Prometheus转而使用Thanos灭霸实现了分布式、高可用容灾部署和数据长期存储。

Thanos Query 可以对数据进行聚合与去重,所以可以很轻松实现高可用:相同的 Prometheus 部署多个副本(都附带 Sidecar),然后 Thanos Query 去所有 Sidecar 查数据,即便有一个 Prometheus 实例挂掉过一段时间,数据聚合与去重后仍然能得到完整数据。 基于Thanos我们业务平台实现了高并发、海量的数据采集上报和存储。首先因为所有流量都会经过网关Thanos主动采集网关的这些指标到并将其可视化。如下图所示只要服务接入了业务平台 QPS、耗时、成功率等一目了然这些指标都无需额外开发即自动获得对代码0侵入节省了大量的开发成本。

云原生背景下的运维价值思考与实践