Files
devops/devops_blameless.md
2025-09-17 16:08:16 +08:00

3.1 KiB
Raw Blame History

2020/3/3 关于devops无问责文化

故障分析会,讨论关于平台故障及应急流程是不是符合规范的问题,我们是这样,故障发生会对故障进行预判,如果是三级故障,即全局性最严重的的故障,那么就可以进行应急操作,目的是让业务可用,也就是“先抢通后修复”的原则。规范里对故障发生到应急事件,及故障修复时间有要求。

因为刚刚领导对故障的处理不满意,之前也问责了几次,甚至也扣了绩效,所以,这个故障报告怎么写比较重视,在对过程统计进行分析中,我们发现这个处理的过程有人为迟滞,没有很好的理由加以说明。

因为故障发生时有个处理小组实时沟通问题及处理过程这时候就有人提出来是不是可以建立一个新讨论组把QA的人踢出去这当然被我否决我们要清楚故障总结的目的是什么 哈哈,这就是问责文化和质量警察最终的必然后果,因为这种文化下,我又怎能保证下次队员的这种“藏着掖着”手段不背着我进行呢。

blame 问题发生 -> 甩锅,瞒报 -> 信息、特别是问题不透明 -> 原因不明 -> 问题积累 -> 欠债,集中爆发,各扫门前雪,官僚文化

blameless :问题发生 -> 反馈 -> 解决 -> 总结 -> 提升非常符合PDCA环精益的方法论啊

devops之所以强调blameless因为blameless的确是基础不光是让问题简单化让团队更积极而不是让团队胆战心惊小心翼翼这是创新的大敌所谓创新有时候就是一种小范围的试错合规的前提下鼓励试错其次是blameless是如果有问题那就让问题尽早出现的devops另一原则fail fast再者blameless让问题及时反馈符合向上游靠拢的原则。

没有blame不骂人领导总是担心没有震慑力底下人不能好好干活典型专制政府型思维官僚文化

那么问题是据我所知blame是很多组织领导驱动执行力的手段blameless不是自废武功 为什么政府强调问责,中国政府问责制是很厉害的,甚至是终生问责,秋后算账都不鲜见,最近新冠疫情,光武汉就已经问责处理654人涉局级干部10人,这个除了中国历史历来的运动式治理的需要,另一个重要原因就是保持中央权威和执行力的需要,确保中央绝对能够指挥地方。这就跟一个组织的目标有关系,政府的目标宏观上一定是统一压倒一切,稳定压倒一切,政府属性压倒一切,而这一切的基础就绝对权威,在这个目标下,必须问责,没有机会问责,甚至可以创造机会问责,比如刘邦胡兰案,乾隆叫魂案,文革。经济和科技领域当然不是稳定压倒一切了,稳定过度就是压制创新,打压进步和压制发展,这就是为什么政府部门“一管就死”的原因吧。 那么企业呢?


if you can not measure it , you can not manage it

  • 管理大师 彼得德鲁克