运营管理
呼叫中心的IT服务管理一直是困扰IT管理人员的难题,其难点在于呼叫中心对IT服务要求高,涉及技术门类极其复杂。以移动通信公司的10086为例,它是数以亿计的客户和企业接触的第一界面,直接代表企业形象,而服务10086的IT基础设施又极其庞杂。江苏移动呼叫中心的IT服务团队是一支勇于创新的团队,继2008年3月在全国率先推出支持大规模驻家座席的技术平台之后,2009年又在终端和服务器的IT生命周期管理上进行了有意义的探索。
终端管理初探
江苏移动的呼叫中心支撑着10086和12580两大类业务,3个服务中心分别位于南京和淮安两个城市,管理着近700台服务器和2500台终端。有限的几名管理员根本无法应付频繁的系统安装、迁移、打补丁,以及大规模的应用布署、调整,还有无法预料的计算机病毒爆发和其他安全事件等。为了保持移动公司的服务水平,维护企业形像,江苏移动呼叫中心的IT人员不断尝试采用不同的管理技术,改变管理方式,从2006年起从多个不同的角度进行了探索。
终端日常应用有很多问题,包括操作系统故障、应用程序故障或由病毒引起的异常情况等。很多故障修复过程很长,操作步骤复杂,维护工作量之大不言而喻。针对形形色色的终端故障,我们采用了一种最简单的办法,即还原卡技术。引入还原卡之后,无论终端出现何种复杂问题,我们都可以立即把系统盘还原到初始状态,保证座席能够在短时间内恢复正常工作。
我们还引入了一套Service Desk服务管理平台,通过这套软件工具实现IT服务的自动化流程管理。这是一个纯管理的软件工具,工单派发后还需要人工完成落地的过程。
在PC架构系统上,我们使用了VMware的软件实现服务器和桌面的虚拟化。服务器虚拟化技术已经比较成熟,能够大幅提高硬件资源的利用效率,并且可以根据需要调整资源和应用的相应配置。刀片服务器和VMware技术的结合大大降低了系统硬件的成本,同时也降低了管理的复杂度。
构建一体化管理平台
过去几年的实践证明,我们在终端管理和虚拟化方面的探索是成功的。我们采用的各种技术手段切实解决了一些具体的技术难题,并且提升了系统的管理水平。但是,我们总感觉,这些技术手段是各自孤立的,它们之间的衔接存在断层,缺乏统一性,不能完全自动化。经过一系列技术应用的铺垫,我们进行技术改造的思路逐渐清晰,创新成了我们新的目标。
自2008年以来,江苏移动的呼叫中心多次爆发蠕虫和ARP病毒。病毒大面积爆发,把IT人员搞得措手不及。虽然全网部署了防病毒系统,而且执行了强制打补丁的策略,但在现有的IT环境中,这些安全措施无法得到有效执行。
究其原因,终端虽然打过补丁,但当某故障发生后,使用还原卡对系统进行还原的同时,新安装的补丁也被还原了。一旦爆发蠕虫病毒,这些还原过的终端很容易交叉传染。有些感染病毒的终端还原了,有些还没来得及进行还原,没有还原的终端将病毒传染给还原后没有打补丁的终端。如果把还原状态设定为打补丁之后,那么每次打完补丁都需要手工更改还原卡的设置,而做到这一点几乎是不可能的。
通过对呼叫中心的一系列问题进行分析,我们发现,无法协同工作的单一技术手段不仅不能实现终端安全管理的目的,反而带来了更多问题。
1. 基于策略执行的主动式终端安全体系
呼叫中心的大部分终端都属于固定工作环境中的高度受控终端,其安全策略相对比较容易制订,但执行难,即自动化的检查、修复困难。安全策略执行难的原因主要有以下三点:第一,策略需要强制执行,执行效果需要循环评估;第二,策略是不断变化和逐步完善的,制订、发布和执行策略必须是一个整体;第三,策略涉及的内容多,大到禁止不合格终端接入生产网络、禁止使用USB存储外设,小到禁止某个源IP访问某个目的IP(黑名单策略)、只允许某个源IP访问某个目的IP(白名单策略)。
因此,我们提出,要建设基于策略的主动式终端安全体系,不仅强调策略的制定,更注重策略的自动化执行,而且注意不同策略执行技术之间的协同工作。我们的主动式终端安全体系模型如图。按照这个模型,我们使用一个以策略为核心,以制定、检查和修复为基础的三位一体的技术架构,集中地进行策略制订、全面的检查与监控、自动化的修复和处理。
2. 构建基于生命周期的终端标准化管理平台
以解决安全问题为契机,以基于策略执行的主动式终端安全模型为基础,我们找到了“终端安全、终端管理、备份恢复”这三个技术领域的一个合集。在融合技术架构的基础上,我们构建了基于生命周期的终端标准化管理平台,实现了基于策略执行的主动式终端安全管理。
融合技术架构是横跨安全、资产管理、补丁管理、备份恢复、网管、远程控制等技术领域的横向技术平台。通过呼叫中心基于生命周期的终端标准化平台的建设,利用其中相互关联的功能模块,我们加强了终端的防护能力,提高了终端管理效率。以下是几个具有代表性的应用场景。
场景一 某一台外来终端可能感染了蠕虫病毒,在它被接入呼叫中心内网时,由于所有内网设备都下发了统一的策略,这台外来终端将被所有终端和服务器判别为非法,并执行拒绝访问策略。
场景二 安全策略遵从模块如果发现部分终端存在安全漏洞,会根据策略自动启动补丁修复模块,安装相应补丁,在安装补丁前后会调用系统备份任务,所有任务完成后自动报告管理员。
场景三 呼叫中心需要对应用程序进行一次全面升级,针对不同的操作系统版本要分别测试、打包、分发,并根据当前的资产信息情况制定软件分发策略,上述工作都可以在维护中心完成。
场景四 有一批新机器到货,呼叫中心的管理人员可以利用快速部署模块,采用定制镜像方式,根据不同业务需求定制多个系统镜像,自动进行网络分发。这一方面可以减少新系统和应用的部署时间;另一方面,也可以减少非正规途径的操作系统安装和配置带来的安全威胁。
场景五 当座席发生故障需要管理员介入的时候,呼叫中心的管理员可以掌握该终端的所有资产信息、补丁安装、配置情况和系统日志,便于及时分析问题,而且不用到现场就可以为座席提供故障判断、解决和操作等服务。
3. 标准化的终端管理服务
有了上述“三位一体”的终端和服务器管理技术架构,我们可以把各种维护工具组合成服务,实现资源的优化配置。
IT服务管理是一个动态的过程,注重成本与效率。作为一个IT运营单位,我们更关注可以落地的技术,而不是空泛的流程和概念。我们在实践过程中强调把融合技术架构自觉地运用到整个终端生命周期管理的过程中,防止外延的扩大化。
我们需要终端资产库,但更多是用于关联事件、关联策略和手段。我们需要服务流程,但更需要实实在在的可以把流程落地的技术。我们在探索、发现、选择、检验的过程中,直接跳过了各种花花绿绿的概念性介绍材料,通过测试、培训、磨合等一系列过程形成具有自身特色的终端服务管理体系。这套终端服务管理体系是有丰富内涵的,既有横向的融合技术架构,又有纵向的生命周期管理。
提高效率 增强安全性
我们把目标限定于IT维护管理的一个小范围,很快就取得了预期的效果,具体体现在以下几个方面。
1. 安全风险大大降低
随着系统的上线、逐步优化和使用,终端病毒感染量逐渐下降,感染病毒的终端由原来的每天几十台下降到每天5~6台。大规模的蠕虫、ARP病毒在新的架构部署后再没有爆发过。下一步,我们计划从源头上阻止恶意威胁的进入。
2. PC利用率大大提高
原来,呼叫中心的很多PC因为病毒、硬件故障、系统安装和配置等各种原因无法使用。系统上线后,病毒问题减少,维护效率提高,大大提高了PC的利用率。
3. 提高信息内容控制的级别
客服系统由于会接触到敏感的客户信息,信息的安全保护一直是个大问题。新系统通过采用软件层的强制手段消除了终端的安全与信息泄漏隐患,如禁止使用USB设备,禁止访问与业务无关的网站等。
4. 运维效率提高
系统上线前,大量重复性工作需要管理员人工完成。现在,大部分工作可以由系统自动完成,操作系统部署、软件分发、补丁修复、故障处理所占用的管理员工作时间大大减少,运维效率得以提高。
江苏移动信息技术中心的IT团队强调从实际需求出发去构思,注重实际环境的测试,并在实际生产中运用了实践与培训相结合的方法,实现了IT服务水平的提高。
精彩瞬间
Moment