监控技术

zabbix + grafana prometheus + grafana

Thanos

我们需要在TKE集群部署Prometheus主动采集workload负载指标和用户自定义指标，随着集群规模不断扩大，Promethues不支持容灾部署，不支持分布式，单实例容量瓶颈等问题也凸显出来，最后我们放弃了原生的Prometheus，转而使用Thanos（灭霸）实现了分布式、高可用容灾部署和数据长期存储。

Thanos Query 可以对数据进行聚合与去重，所以可以很轻松实现高可用：相同的 Prometheus 部署多个副本(都附带 Sidecar)，然后 Thanos Query 去所有 Sidecar 查数据，即便有一个 Prometheus 实例挂掉过一段时间，数据聚合与去重后仍然能得到完整数据。基于Thanos，我们业务平台实现了高并发、海量的数据采集上报和存储。首先，因为所有流量都会经过网关，Thanos主动采集网关的这些指标到并将其可视化。如下图所示，只要服务接入了业务平台， QPS、耗时、成功率等一目了然，这些指标都无需额外开发即自动获得，对代码0侵入，节省了大量的开发成本。

云原生背景下的运维价值思考与实践

1.2 KiB Raw Permalink Blame History Unescape Escape

监控技术

1.2 KiB

Raw Permalink Blame History