first commit

2025-09-17 16:08:16 +08:00
parent 9395faa6b2
commit 3ff47c11d5
1318 changed files with 117477 additions and 0 deletions
--- a/monitor.md
+++ b/monitor.md
@@ -0,0 +1,16 @@
+
+# 监控技术
+
+zabbix + grafana
+prometheus + grafana
+
+**Thanos**
+
+我们需要在TKE集群部署Prometheus主动采集workload负载指标和用户自定义指标，随着集群规模不断扩大，Promethues不支持容灾部署，不支持分布式，单实例容量瓶颈等问题也凸显出来，最后我们放弃了原生的Prometheus，转而使用Thanos（灭霸）实现了分布式、高可用容灾部署和数据长期存储。
+
+Thanos Query 可以对数据进行聚合与去重，所以可以很轻松实现高可用：相同的 Prometheus 部署多个副本(都附带 Sidecar)，然后 Thanos Query 去所有 Sidecar 查数据，即便有一个 Prometheus 实例挂掉过一段时间，数据聚合与去重后仍然能得到完整数据。
+基于Thanos，我们业务平台实现了高并发、海量的数据采集上报和存储。首先，因为所有流量都会经过网关，Thanos主动采集网关的这些指标到并将其可视化。如下图所示，只要服务接入了业务平台， QPS、耗时、成功率等一目了然，这些指标都无需额外开发即自动获得，对代码0侵入，节省了大量的开发成本。
+
+[云原生背景下的运维价值思考与实践](https://cloud.tencent.com/developer/article/1753976)
+
+