Files
devops/opsquestion.md
2025-09-17 16:08:16 +08:00

53 lines
5.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

## 快速迭代,快速上线
2020-10-1CG
今天看到一篇ops间dev的问题基本上是工作中常见问题有意思
```
有些固定上线时间的项目,可能因为技术方案变化,导致测试时间压缩,最终导致上线出问题,而由运维来背锅。
为保住KPI运维有很多心里话想和研发测试说一说
- “敏捷开发频繁交付”的KPI真不是增加运维人手就能解决的需要自动化回归的支持需要自动化上线的支持
- “上线失败快速回滚”的KPI真不是增加运维人手就能解决的需要回滚方案的支持而回滚方案真的测试过么
- “快速扩容快速响应”的KPI真不是增加运维人手就能解决的需要架构设计的支持很多系统无法水平扩展来了机器无法扩容需要快速部署的支持需要服务发现的支持所有上游修改配置重启肯定是不行的需要压力测试和容量评估的支持
- “系统高可用”的KPI真不是增加运维人手就能解决的需要优雅降级的支持需要架构设计的支持如何评判系统是否高可用这个简单关掉线上任何一台机器试试看用户服务是否受影响如果受影响研发哥哥们拜托了
- “快速故障报警”的KPI真不是增加运维人手就能解决的需要监控系统的支持操作系统和运维层面的监控我们可以实施但错误日志、接口、业务的监控呢另外报警短信能少一点么过度报警会让人变得“麻木不仁”的
- “快速故障定位”的KPI真不是增加运维人手就能解决的需要数据量化健康信息的支持58到家的守望者平台做的还是不错的需要快速诊断的支持58到家的调用链跟踪系统做的还是不错的
- “快速故障恢复”的KPI真不是增加运维人手就能解决的需要故障转移的支持相信我们故障发生时如果运维人员不知道怎么抉择且又必须做出抉择这时的抉择往往是错的我们能做的是重启:smile:),我们也不想凌晨打给你们,但希望你们能实现自动化方案
- “内审合规”的KPI真不是增加运维人手就能解决的在资源允许的情况下请不要手动删除任何资源数据是很重要的资源。访问控制和权限申请的流程真的不是限制大家相反哪一次数据的误删除不是我们加班来恢复的
我们的KPI都掌握在大家的手里技术一家人希望研发测试的同学理解。
```
**虽然有些戏说调侃也问到了一些关于devops的痛点我来回答下吧**<br>
---
- “敏捷开发频繁交付”的KPI真不是增加运维人手就能解决的需要自动化回归的支持需要自动化上线的支持
> **CG: 运维开发自动化运维平台,部署上线全流程自动化**<br>
- “上线失败快速回滚”的KPI真不是增加运维人手就能解决的需要回滚方案的支持而回滚方案真的测试过么
> **CG: 回滚方案应包含在部署文档里,失败可以分析原因,自动化运维应该考虑快速回滚**<br>
- “快速扩容快速响应”的KPI真不是增加运维人手就能解决的需要架构设计的支持很多系统无法水平扩展来了机器无法扩容需要快速部署的支持需要服务发现的支持所有上游修改配置重启肯定是不行的需要压力测试和容量评估的支持
> **CG: 不对,快速或弹性扩容运维应更多的考虑**<br>
- “系统高可用”的KPI真不是增加运维人手就能解决的需要优雅降级的支持需要架构设计的支持如何评判系统是否高可用这个简单关掉线上任何一台机器试试看用户服务是否受影响如果受影响研发哥哥们拜托了
> **CG: 不对研发应考虑架构级HA运维应考虑部署级别A10 HLB+ HALVSNGXHaproxykeeplived等SLB运维可以做的。**<br>
- “快速故障报警”的KPI真不是增加运维人手就能解决的需要监控系统的支持操作系统和运维层面的监控我们可以实施但错误日志、接口、业务的监控呢另外报警短信能少一点么过度报警会让人变得“麻木不仁”的
> **CG: 监控系统是运维职责,有些生产数据研发需要提供接口支持**<br>
- “快速故障定位”的KPI真不是增加运维人手就能解决的需要数据量化健康信息的支持58到家的守望者平台做的还是不错的需要快速诊断的支持58到家的调用链跟踪系统做的还是不错的
> **CG: 研发有这样的诊断工具当然是最好的,但这是理想状态啊,一是问题很难预设,二是客户需求不包含,三是这是运维工作,四这是计划外不符合敏捷的要求啊**<br>
- “快速故障恢复”的KPI真不是增加运维人手就能解决的需要故障转移的支持相信我们故障发生时如果运维人员不知道怎么抉择且又必须做出抉择这时的抉择往往是错的我们能做的是重启:smile:),我们也不想凌晨打给你们,但希望你们能实现自动化方案
> **CG: 同上HA, 另认为运维就是重启的同学,要转型了!!!**<br>
- “内审合规”的KPI真不是增加运维人手就能解决的在资源允许的情况下请不要手动删除任何资源数据是很重要的资源。访问控制和权限申请的流程真的不是限制大家相反哪一次数据的误删除不是我们加班来恢复的
> **CG: 生产上的运维权限分离不会产生这种问题,运维职责所在**<br>
**大家也自己问一问,关掉线上任何一台机器,用户服务受影响么?**