first commit
This commit is contained in:
16
monitor.md
Normal file
16
monitor.md
Normal file
@@ -0,0 +1,16 @@
|
||||
|
||||
# 监控技术
|
||||
|
||||
zabbix + grafana
|
||||
prometheus + grafana
|
||||
|
||||
**Thanos**
|
||||
|
||||
我们需要在TKE集群部署Prometheus主动采集workload负载指标和用户自定义指标,随着集群规模不断扩大,Promethues不支持容灾部署,不支持分布式,单实例容量瓶颈等问题也凸显出来,最后我们放弃了原生的Prometheus,转而使用Thanos(灭霸)实现了分布式、高可用容灾部署和数据长期存储。
|
||||
|
||||
Thanos Query 可以对数据进行聚合与去重,所以可以很轻松实现高可用:相同的 Prometheus 部署多个副本(都附带 Sidecar),然后 Thanos Query 去所有 Sidecar 查数据,即便有一个 Prometheus 实例挂掉过一段时间,数据聚合与去重后仍然能得到完整数据。
|
||||
基于Thanos,我们业务平台实现了高并发、海量的数据采集上报和存储。首先,因为所有流量都会经过网关,Thanos主动采集网关的这些指标到并将其可视化。如下图所示,只要服务接入了业务平台, QPS、耗时、成功率等一目了然,这些指标都无需额外开发即自动获得,对代码0侵入,节省了大量的开发成本。
|
||||
|
||||
[云原生背景下的运维价值思考与实践](https://cloud.tencent.com/developer/article/1753976)
|
||||
|
||||
|
||||
Reference in New Issue
Block a user