【摘要】
本文以本人主导的上海银行网点网络设备运维服务项目为实例,探讨了 IT服务监督管理的重要性,论述了对 IT服务的过程和交付结果进行监督和评估,可以有效提升服务质量,达成客户满意。在此项目中,我担任了系统规划管理师,从服务质量、服务风险和信息安全三个方面进行管理,通过制定质量方针、质量目标、质量计划、质量控制、质量保证和质量改进,确保满足服务级别协议;通过对风险进行评估、分析、制定应对措施,最大限度减少 IT 服务风险的发生;通过信息安全管理,确保组织资产、信息和数据的保密性、完整性、可用性、真实性、可控性和可靠性。通过本次项目,组织建立了完整的监督管理体系,对服务过程、交付结果实施监督和绩效评价,确保实现了预定的 IT服务质量。
【正文】
2016年 1月,我单位中标上海银行的市区网点网络设备的运维服务项目,工作内容包括网点各类硬件机具配置、网络设备上架集成、安全策略配置、网络线路联调;负责 7*12 值守,确保开业期间网络的稳定运行,并实时监控网络的运行状态,对于网点的请求进行及时电话响应,对于需要现场解决的问题,确保 2小时到达现场进行处理。
我担任本项目的系统规划管理师,在回访中,我发现客户的满意率较低,比如现场响应不及时,设备监控不准确,支持人员经验不足等。经过调查,我发现:1、由于网点数量较多,分散在全市各区,团队人员数量不足,无法及时调度响应;2、监控平台技术落后,难以支撑实际需要;3、服务管理流程没有规范化与制度化;4、缺乏相应的知识库、备件库等。
鉴于以上问题,公司决定由我牵头,开展 IT 服务监督管理工作。我于是根据识别到的问题,采用 ITSS 的标准,从服务质量、服务风险和信息安全三个方面进行管理,通过制定质量方针、质量目标、质量计划、质量控制、质量保证和质量改进,确保满足服务级别协议;通过对风险进行评估、分析、制定应对措施,最大限度减少 IT 服务风险的发生;通过信息安全管理,确保组织资产、信息和数据的保密性、完整性、可用性、真实性、可控性和可靠性。
IT服务质量管理
IT运维服务质量管理是为了保证 SLA的完成,提高运维服务水平所做的一系列活动,包括运维服务质量策划、运维服务质量检查、运维服务质量改进,以全面提升服务的安全性、可靠性、响应性、有形性以及友好性。
我通过对服务质量进行整体策划,结合业务实际需要以及当前运维能力水平,设定合理的质量目标,并且计划需要采取的质量保证和质量控制活动,包括用户满意度管理、投诉管理、日常回访、内部审计和检查。同时确定了质量管理相关的职责和权限,确保任何过程所 涉及的质量职能都清晰并制度化。最后形成质量策划文件,正式发送给相关干系人。
质量人员根据质量策划文件对运维服务质量进行检查和实施。团队定期与网点开展视频会议进行回访,与业务人员进行满意度调查,对服务级别协议的达成进行评审和回顾,并邀请第三方机构进行内部审计,以提升服务质量。我与网点负责人定期关注质量检查活动的执行情况,确保质量工作按计划进行。同时也对检查结果进行记录,以便于后续质量改进。
我结合业务现状和能力水平,对质量问题确定质量改进方向和改进目标。之后便安排质量人员落实改进任务,如采购升级现有的运维工具,提升工具稳定性,以便于更精确监控网络线路或设备的故障;技术人员的知识经验不足,因此需要进行技能培训,同时建立知识库,达到知识分享的目的。在此过程中,我定期关注改进情况,发现偏差及时纠正。
IT服务风险管理
风险管理包括策划、组织、领导、协调和控制等活动,通过风险识别、风险分析、风险评估等,提供事先应对计划,合理使用回避、减轻、分散和转移等方法,对 IT 服务运维的风险进行有效控制,确保服务目标的实现。
在服务启动初期,我基于风险角度对服务进行纵观全局的考虑、分析与规划,根据 SLA、服务范围说明等关键文件,制定风险管理计划,涵盖相关角色与职责,风险类别、概率及影响等,其决定了如何 采取和计划服务的风险管理活动的过程。
在服务运维过程中,我不断识别和确定出风险及其基本特性,以及影响方面,这是一项循环重复的工作。我根据 SLA及风险管理计划等要素,通过头脑风暴等方式,识别出运维风险,并对其进行优先级排序,形成风险清单。
通过定性分析,对风险发生的概率和影响程度进行综合分析,并按种类进行分组排序, 分析其中的趋势,比如各家网点针对某类设备机具的保障率近期大幅提升,经过调查发现,该型号设备已到达使用寿命,需进行更新升级。
我根据相应优先级顺序,并结合实际需求,把应对风险所需成本和措施纳入 IT 服务预算和进度中。针对网络线路故障,团队考虑采取双冗余的应对措施,以减轻单点故障带来的损失,并明确应对计划责任人及职责,减少二级风险与残留风险;通过跟踪已识别风险,监控新风险的发生,保证风险计划的执行,并确保风险应对计划的有效性。团队不断对风险评估、审计和评审,进行差异趋势分析,确保网点运维风险清单的持续更新。
IT服务安全管理
针对服务安全管理,我主要从保密性、完整性、可用性、可靠性以及可追溯性几个方面进行监督管理。
在保密性方面,我建立信息保密机制,将制度贯穿落实于所有运维人员,定期监督实施效果,并在每个月统计泄密事故的发生情况,将服务报告发送给有关各方,并对泄密事件进行惩罚处理;另外,我采用安全 U盘等访问受限的移动介质,确保在网点服务过程中,信息不发生非授权的修改、破坏和转移,保证数据完整性;同时还定期与网点人员回访,了解其对于服务过程中的信息访问是否有障碍,是否与实际需求相匹配;而对于系统及网络的可靠性监督管理则是重中之重,我每周统计重大事故发生情况,并对普通事件的发生做趋势分析与调查,对比服务中断时间、服务恢复时间与 SLA的匹配程度,还定期优化关键业务功能的应急预案,进行沙盘演练。在服务的可追溯性方面,我建立了完善的流程与机制,确保所有服务记录的可追溯性,网点人员必须通过服务台请求服务,服务台进行记录,并进行派单,任何支持人员不得直接响应网点服务请求,一方面出于对服务变更的质量与安全考虑,另一方面也利于服务费用的核算与结算。
【总结】
经过一段时间的运行,项目团队的客户响应速度和业务熟练方面有明显的提升,监控平台告警更为及时和准确,服务管理的流程也更为规范化和制度化,同时团队内部也建立起了网点运维的知识库和各类机具的备件库,以便及时替换,确保业务连续性。网点的工作人员对我们服务团队大加赞赏,服务满意度大幅提升。由此可见,通过践行 ITSS 标准,不断从质量、风险和安全三方面进行监督管理,对于提升 IT服务质量,降低成本,提高满意度具有重大意义和深远影响。