first commit
This commit is contained in:
157
sla.md
Normal file
157
sla.md
Normal file
@@ -0,0 +1,157 @@
|
||||
|
||||
# SLA (Service-Level Agreement) 服务等级协议
|
||||
|
||||
## 自动化运维服务内容
|
||||
提供基于云服务器的相关运维服务。其中包含环境配置、故障排查、安全运维、监控服务、系统优化、容灾备份等类型运维服务。用户可以根据自己的运维需求在各类目中寻找提供相关服务的商品。
|
||||
|
||||
服务类别|服务内容|服务方式
|
||||
:---:|:---|:---:
|
||||
基础资源运维|1. 云资源日常扩容,升级等操作;<br> 2. 数据备份、配置变更处理;<br> 3. 网络资源扩容与日常配置变更;|远程
|
||||
日常运维|1. 提供应用发布解决方案与技术支持; 用户需要安装的软件或服务器环境部署; 2. 各类故障发生时,按服务等级要求响应,协助排查与抢修,确保业务可用性。|远程/现场
|
||||
容灾备份|1. 提供应用系统高可用架构方案与技术支持; <br>2. 提供应用系统同城容灾方案与技术支持; <br>3. 提供冗余备份解决方案,可及时修复受损用户线上业务。|远程
|
||||
安全管理|1. 数据库、主机、端口、系统、服务等安全评估及安全组策略制定技术支持; <br>2. 提供相关补丁更新及漏洞查找与修复服务,确保服务器及应用安全稳定运行。 <br>3. 为用户的服务器进行安全策略定制与配置,避免常见攻击导致不必要的损失,提高服务器安全性。|远程
|
||||
监控服务|1. 网络监控告警;系统资源监控告警;应用服务监控告警; <br>2. 可定制化阈值自动触发告警并下发维护人员; <br>3. 告警和监控可视化,自动化。|远程
|
||||
系统优化|1. 提供操作系统内核参数调优建议与技术支持; <br>2. 提供webserver、数据库、负载均衡等调优建议与技术支持;|远程/现场
|
||||
应急预案|1. 提供各类故障应急预案,并定时开展预案演练 <br>2. 分析定位新增故障,扩充新增问题应急预案|远程
|
||||
培训服务|1. 运维工具、产品、平台应用培训; <br>2. 运维人员赋能培训; <br>3. 自动化运维行业最佳实践培训。|远程/现场
|
||||
咨询服务|1. 分布式集群解决方案 <br>2. 高负载且需要持久连接负载均衡解决方案 <br>3. Redis缓存解决方案 <br>4. 容器化和微服务解决方案|远程/现场
|
||||
|
||||
## 自动化运维服务内容
|
||||
### 介绍
|
||||
为给运维产品或服务销售提供参考,草拟了无线运营分公司运维产品或服务分等分级的目标标准规范。
|
||||
以下定义了无线运营分公司为用户提供的服务内容和服务等级目标、测量规则以及计算方法。
|
||||
|
||||
### 定义
|
||||
#### 术语
|
||||
"7×24":指覆盖星期一到星期日的 00:00-24:00 的时间周期。
|
||||
"可用性":与"不可用性"相反。
|
||||
"不可用性":指与每月全部时间相比较,无线运营分公司为用户提供的某项服务发生服务不可用的时间比例,服务不可用的起始时间按照以下两项中最早的时间点进行取值:
|
||||
a. 无线运营分公司运维监控系统所监控和记录到的服务不可用的时间点;
|
||||
b. 用户主动提交服务不可用工单请求的时间点。
|
||||
|
||||
#### 预定维护
|
||||
预定维护指无线运营分公司按照用户提出的请求而对设备、软件、数据等执行的维护操作,同时包括因正常维护需要而执行的服务器关机和重启。
|
||||
无线运营分公司将与用户共同协商和确定预定维护的执行时间,并且在执行预定维护事件前,无线运营分公司将通过协商一致的方式通知用户的授权技术联系人。
|
||||
|
||||
#### 维护窗口期 (Maintenance Window)
|
||||
为确保向用户提供稳定可靠的托管服务,无线运营分公司将定期对包含服务器、交换机等数据中心基础设施进行例行维护,在执行例行维护时,无线运营分公司将提前72小时通过电子邮件或电话通知用户维护的影响时间和范围。所有例行维护将在00:00到06:00的时间段内执行,以最小化对用户服务造成的影响。
|
||||
|
||||
## 服务类型目标
|
||||
### 接单与监控
|
||||
#### 服务响应
|
||||
- 定义
|
||||
接单响应指无线运营分公司运维工程师对客户通过 电话、邮件等约定的沟通渠道提交的某一特定任务单进行提取和响应。
|
||||
- 服务等级
|
||||
|
||||
事件严重级别|响应优先级|有效支持时间|响应更新频率
|
||||
紧急问题 <br>系统宕机、硬件故障、网络中断等情况导致的服务完全不可用问题。|最高|7×24|每60分钟更新一次
|
||||
标准问题 <br>用户系统或网络可以运行,但速度缓慢,服务不稳定,需要进行优化和排除相关问题。|高|7×24|每120分钟更新一次
|
||||
低级请求 <br>信息查询或其他非即时性的计划操作与例行维护。|标准|7×24|每240分钟更新一次
|
||||
|
||||
- 计算
|
||||
接单响应时间 = 任务单提取时间点–任务单提交时间点
|
||||
注:所有时间以分钟为单位。
|
||||
- 测量
|
||||
接单响应时间的起始时间点为用户通过约定方式提交保障工单的时间记录点;结束时间点为运维工程师受理并提取该工单的时间记录点。时间记录点由redmine工单系统自动记录。
|
||||
|
||||
#### 服务等级目标
|
||||
事件严重级别|服务等级|响应时间(≤分钟)|响应更新频率(分钟)
|
||||
---|---|---|---
|
||||
紧急问题|高|15|30
|
||||
紧急问题|中|30|60
|
||||
紧急问题|低|60|120
|
||||
标准问题|高|30|60
|
||||
标准问题|中|60|90
|
||||
标准问题|低|120|180
|
||||
低级请求|高|60|90
|
||||
低级请求|中|120|120
|
||||
低级请求|低|240|240
|
||||
|
||||
#### 服务响应方式
|
||||
服务项目|服务方式|交付方式|标准服务时间
|
||||
---|---|---|---
|
||||
电话|远程方式|技术支持工程师通过电话向客户提供技术问题解答的过程。|7×24
|
||||
远程运维|远程方式|运维工程师通过远程控制系统和数据修复工具对数据进行修复、系统调试的过程。|7×24
|
||||
邮件服务|远程方式|技术支持工程师通过技术支持邮箱受理提交的问题或发送相关资料的邮件服务形式。|7×24
|
||||
回访服务|远程方式|技术支持工程师通过电话主动了解当前应用状况、问题及需求的过程。|7×24
|
||||
上门服务|现场方式|技术工程师上门到客户现场解决紧急救援服务;协助完成产品的升级、数据迁移的服务。|7×24
|
||||
|
||||
### 网络和平台可用性
|
||||
#### 网络可用性
|
||||
- 定义
|
||||
"网络可用性":鉴于互联网是由全世界所有运营商的独立自治网络通过互联互通而组成,故这里的网络可用性指用户托管给无线运营分公司运维的网络基础设施的可用性。网络基础设施包括交换机及相关路由设备等。
|
||||
服务等级目标
|
||||
|
||||
服务等级|目标|月最长不可用时间(分钟)
|
||||
---|---|---
|
||||
高|99.99%|4.32
|
||||
中|99.95%|21.6
|
||||
低|99.9%|43.2
|
||||
|
||||
- 计算
|
||||
实际网络可用性=(每月总时间–(每月实际总不可用时间–每月例外的不可用时间))/每月总时间
|
||||
|
||||
如:99.9%下每月允许不可用时间=(1–服务等级目标)*每月总时间=(1–99.9%)*43200=43.2(分钟)
|
||||
注:所有时间以分钟为单位。
|
||||
|
||||
- 测量
|
||||
以下两种情况均被视为网络不可用状态:
|
||||
- 用户系统边缘网络接口通过网络基础设施到达数据中心边缘路由接口的ICMP丢包率超过5%,并连续保持15分钟以上 。
|
||||
- 用户系统边缘网络接口通过网络基础设施到达数据中心边缘路由接口的ICMP 延迟时间超过100ms,并连续保持15分钟以上。
|
||||
- 网络不可用的起始时间点为运维工程师响应用户工单的时间点,结束时间点为网络恢复可用状态的时间点。
|
||||
|
||||
- 受影响服务项
|
||||
无线运营分公司运维负责运维的与用户服务相关内网、公网端口、IP
|
||||
|
||||
- 例外
|
||||
以下事件引发的网络不可用时间将不计入:
|
||||
- 非无线运营分公司维护的骨干网络或中间节点故障导致网络不可达。
|
||||
- 无线运营分公司对数据中心网络基础设施进行计划维护,并提前与用户协商通告。
|
||||
- 用户主动切断服务器网络连接。
|
||||
- 用户设备硬件故障或软件故障(未纳入无线运营分公司运维)。
|
||||
- 用户在未经许可的情况下对数据中心网络基础设施进行非法操作。
|
||||
- 用户系统向外界发起网络攻击。
|
||||
|
||||
#### 平台可用性
|
||||
- 定义
|
||||
平台可用性:是指无线运营分公司提供或负责维护的产品、服务,包括平台服务必需的虚拟机、容器、存储、数据库等。
|
||||
|
||||
- 服务等级目标
|
||||
|
||||
服务等级|目标|月最长不可用时间(分钟)
|
||||
---|---|---
|
||||
高|99.95%|21.6
|
||||
中|99.9%|43.2
|
||||
低|99.5%|216
|
||||
|
||||
- 计算
|
||||
实际平台可用性=(每月总时间–(每月实际总不可用时间–每月例外的不可用时间))/每月总时间
|
||||
每月允许不可用时间=(1–服务等级目标)*每月总时间=(1–99.95%)*43200=21.6(分钟)
|
||||
注:所有时间以分钟为单位。
|
||||
|
||||
- 测量
|
||||
当用户申请的资源由于基础架构及运行环境故障,导致用户产品不能提供正常服务,视为不可用。
|
||||
平台不可用的起始时间点为服务台工程师响应用户工单的时间点,结束时间点为恢复资源可用的时间点。
|
||||
|
||||
- 影响服务项目
|
||||
云服务器/虚拟机、云磁盘、数据库、云负载均衡、容器。
|
||||
|
||||
- 例外
|
||||
以下事件引发的平台不可用将不计入:
|
||||
无线运营分公司对云平台环境或产品进行的双方协商一致的计划内维护。
|
||||
用户产品自身BUG导致的服务不可用问题。
|
||||
|
||||
## 限制与例外
|
||||
如发生以下任一事项,无线运营分公司将不承担相关责任:
|
||||
- 用户出现违反服务协议书的行为、失误、疏漏或违约情况,包括但不限于用户未履行服务协议书规定的责任或义务,和未按照服务协议书进行付款等情况。
|
||||
- 经用户要求或批准进行服务调整或项目变更,通过变更请求流程,双方均认可,当此变更请求的执行可能导致无法实现本规定的服务等级目标的情况。
|
||||
- 上文中定义的其他例外情况
|
||||
- 由黑客攻击、渗透、病毒等造成的服务不可用或中断。
|
||||
|
||||
## 客户报障入口
|
||||
- 通过redmine工单系统在线提交请求。
|
||||
- 拨打服务热线0571-879392xx。
|
||||
- 通过约定的QQ群xxxx。
|
||||
|
||||
|
||||
#### 2019年4月25日
|
||||
Reference in New Issue
Block a user