时间:2022-12-31 18:18:19
序论:好文章的创作是一个不断探索和完善的过程,我们为您推荐十篇信息系统应急演练总结范例,希望它们能助您一臂之力,提升您的阅读品质,带来更深刻的阅读感受。
一、指导思想
以维护我区重要业务系统网络及设备的正常运行为宗旨。按照“预防为主,积极处置”的原则,进一步完善XX区政府信息办应急处置机制,提高突发事件的应急处置能力。
二、组织机构
(一)应急演练指挥部:
总指挥:XX
成员:XX
职责:负责信息系统突发事件应急演练的指挥、组织协调和过程控制;向上级部门报告应急演练进展情况和总结报告,确保演练工作达到预期目的。
(二)应急演练工作组
组长:XX
成员:XX
职责:负责信息系统突发事件应急演练的具体工作;对信息系统突发事件应急演练业务影响情况进行分析和评估;收集分析信息系统突发事件应急演练处置过程中的数据信息和记录;向应急指挥部报告应急演练进展情况和事态发展情况。做好后勤保障工,提供应急演练所需人力和物力等资源;做好秩序维护、安全保障支援等工作;建立与电力、通讯、公安等相关外部机构的应急演练协调机制和应急演练联动机制;其它为降低事件负面影响或损失提供的应急支持保障等。
三、演练方案
(一)演练时间
2020年12月5日18时——21时举行应急演练,全办工作人员参加。
(二)演练内容:
1、网络通信线路故障及排除;
2、电力故障及排除;
3、机房温度过高报警;
(三)演练的目的:
突发事件应急演练以提高区政府信息办应对突发事件的综合水平和应急处置能力,以防范信息系统风险为目的,建立统一指挥、协调有序的应急管理机制和相关协调机制,以落实和完善应急预案为基础,全面加强信息系统应急管理工作,并制定有效的问责制度。坚持以预防为主,建立和完善信息系统突发事件风险防范体系,对可能导致突发事件的风险进行有效地识别、分析和控制,减少重大突发事件发生的可能性,加强应急处置队伍建设,提供充分的资源保障,确保突发事件发生时反应快速、报告及时、措施得力操作准确,降低事件可能造成的损失。
四、演练的准备阶段
(一)学习教育。
组织学习《XX区信息办网络安全管理制度》、《XX区信息办网络和信息安全事件应急处置和报告制度》、《XX区政务网及政府网站突发事件应急预案》、《XX区人民政府电子政务机房管理制度》,提高工作人员对于突发事件的应急处置意识;熟悉在突发事件中各自的职责和任务,保证业务的正常开展。
(二)下发《网络安全应急演练实施方案》;
(三)演练指挥部全面负责各项准备工作的协调与筹划。
明确责任,严格组织实施演练活动,确保演练活动顺利完成,达到预期效果。
(四)应急演练组要提前在中心机房要做好充分准备,在演练前一天准备好所有应急需要联系的电话号码,检查供电线路,计划好断电点,演练时掐断电源,模拟供电故障;
并按演练背景做好其它准备。
五、应急演练阶段
(一)请我办信息安全员,讲解演练知识及演练过程中的注意事项,并与其他相关同事一起温习应急预案。
(二)按照预定发生突发事故的时间表,总指挥逐项发出演练通知;
(三)参与部门及人员。
区政府信息办全体员工都要参加,把演练当成实战,认真对待。
(四)演练的事项
1、2020年12月5日18时,发现网络不通,立即报告至网络管理员,网络管理员立即将此情况报告应急演练指挥部。指挥部启动相关应急预案并组织人员进行故障排除,网络故障排除后,网络恢复正常。
2、2020年12月5日19时,在没有接到任何通知的情况下,突然遭遇不知原因的停电,备用电源无法自启动,所有设备陷入瘫痪状态。办公室立即将此情况报告应急演练指挥部。指挥部启动相关应急预案并组织人员对备用电源进行抢修,同时联系供电部门进行维修与排除。
3、2020年12月5日20时,由于空调损坏,导致中心机房温度过高报警,机房管理员立即将此情况上报至应急指挥部,指挥部启动相关应急预案并组织人员进行判断与排除。查明原因后立即打开机房通风备用设备降温,以保证机房设备正常运转,同时通知精密空调维保人员上门维护。
六、演练要求:
一、引言
2011年银监会向全国商业银行等金融机构下发《商业银行业务连续性监管指引》(银监发〔2011〕104号,以下简称:《指引》),从业务连续性组织架构、业务影响分析、业务连续性计划与资源建设、业务连续性演练与持续改进、运营中断事件应急处置等几个方面指导国内金融机构建设业务连续性管理体系。自发文以来,国内银行一直根据监管的要求建立符合自身发展的业务连续性管理体系,然而,业务连续性管理体系的建设涉及面广、建设周期长,从“软件”方面来看,涉及现状调研、方案及计划制定、业务影响分析和风险评估、重要业务范围界定、制度建设、总体和专项应急预案建设、演练等内容,从“硬件”方面来看,涉及数据中心及灾备中心建设,需要大量的资金及时间等资源的投入,虽然《指引》发文已5年有余,但极少数银行可以完全按照监管的要求建立全面健全的业务连续性管理体系。本文以某银行业务连续性管理体系建设为研究背景,总结业务连续管理体系建设过程中的重点及难点并提出解决思路,为国内银行同业提供参考方法。
二、业务连续性管理体系建设重、难点解决措施
在业务连续性管理体系建设实践中,组织架构、业务连续性计划、业务连续性应急预案等工作实施难度较低,难点在于业务影响分析、总分行资源建设、业务连续性演练等工作,本文着重介绍上述难点的建设过程。
(一)业务影响分析
业务影响分析的主要目标是帮助银行通过识别和评估业务运营中断造成的影响,明确业务连续性管理重点,根据业务重要程度进行差异化管理,制定不同业务的恢复目标、恢复次序、确定支持重要业务对应的信息系统的恢复目标,其主要工作包括2个方面的内容,一方面是现状调研,另一方面是业务影响分析和风险评估。在现状调研阶段,由于该项工作涉及全行所有业务以及大部份部门,可采取培训、访谈、召开研讨会、调查问卷等方式,逐步推进工作开展,初步梳理出重要业务清单。在业务影响分析和风险评估阶段,结合国内外先进实践经验,采取财务影响和非财务影响两个维度对初步梳理出来的各项业务进行风险评估。财务影响和非财务影响均采用评分制,其中,财务影响主要评估该项业务中断一个工作日给银行带来的收入损失,可根据银行自身业务收入水平设置分值,该项指标是较为客观的估值;非财务影响则综合评估该项业务中断可能给银行带来的影响,如:监管负面影响、声誉损失、客户负面情绪、投资者信心/忠诚度降低、法律/诉讼风险、国家金融秩序稳定等,该项指标具有一定的主观因素,为避免主观因素影响程度过大,可采取两种方式降低影响:一是扩大调查问卷的样本量,二是对非财务影响的各个要素设置权重值,对财务影响及非财务影响设置综合评分规则。特别地,对于后台运营类、渠道类业务(比如:自助银行业务),虽然不直接产生业务收入,但它是其他业务产生收入的必要条件之一,对于此类业务计算该渠道所承载的各业务种类收入之和作为该渠道的业务收入。在确定各项业务的财务影响和非财务影响指标基础上,采取矩阵模型分析法进一步确定业务恢复的优先顺序。在确定业务恢复的优先顺序的基础上,进一步确定该业务对应的信息系统恢复目标,以指导关键信息系统的资源建设。《指引》要求,“原则上重要业务的RTO不得大于4小时,重要业务的RPO不得大于半小时”,在信息系统资源建设中,关键信息系统的恢复能力应满足重要业务RTO、RPO的时效要求。
(二)总、分行资源建设
业务连续性资源建设属于“硬件”设施范畴,主要涉及总行同城、异地灾备中心以及分行机房设备的建设。在总行层面,同城、异地灾备中心应建立重要信息系统的备份,在日常工作中应加强对灾备中心机房的巡检,确保系统正常运行。在分行层面,应从供电、网络、系统建设等方面实现全方位的应急措施,比如在供电环节,分行除配置双线路供电外,还要配备不间断电源(UPS)和应急发电机;在网络连接环节,不仅要配置不同运营商的网络线路,还要配置无线设备,确保在极端情况下仍能保障重要业务持续运营。
(三)业务连续性演练
虽然《指引》对国内商业银行开展业务连续性演练的具体方式未作硬性要求,许多银行在演练环节采用较为简单的桌面演练以应付监管的要求,这种方式虽然成本较低,但效果不好,难于检验应急预案的可行性,在实践中,某银行根据业务重要程度有针对性地对重要信息系统开展实战演练,在业务量较小的时间段将生产系统切换至灾备中心系统上运行,平时不断总结经验,实践证明,这种方式能够较好地应对突发状况。另外,许多银行在开展应急演练时,未要求业务关联方参与,《指引》明确规定,“商业银行应当将外部供应商纳入演练范围并定期开展演练;同时,应当积极参加金融同业单位、外部金融市场、金融服务平台和公共事业部门等组织的业务连续性计划演练,确保应急和协调措施的有效性”,因此,在开展应急演练时应将关联第三方纳入演练范围,注重演练的实质而非形式。
三、结束语
本文根据实践经验,对商业银行业务连续性管理体系建设过程中的重点、难点提出建议和方法,在业务影响分析环节提出按照财务影响和非财务影响来区分重要业务的分析方法,为梳理出业务恢复优先顺序提出矩阵模型分析法,实践表明,可顺利、高效地完成业务连续性管理体系的建设,有效降低重要业务中断风险,提高业务风险应对能力,满足《指引》对商业银行建设业务连续性管理体系的要求,对国内银行建设业务连续性管理体系具有参考意义。
参考文献
[1]中国银监会.商业银行业务连续性监管指引[Z].
中图分类号:X921 文献标识码:A
1针对极端危机情境的应急演练常态化
1.1 应急管理制度的建立健全
国家“十一五”发展规划纲要明确规定,建立健全应急管理体系,加强指挥信息系统、应急物质保障、专业救灾抢险队伍、应急标准体系以及运输、现场通讯保障等重点领域和重点项目的建设,建设国家、省、市三级安全生产应急救援指挥中心和国家、区域、骨干专业应急救援体系。
为认真贯彻落实“安全第一、预防为主、综合治理”的方针,规范中国石化集团胜利石油工程有限公司测井公司应急管理工作,提高测井公司应对突发事件的应急救援水平,增强综合处置突发事件的能力,预防和控制次生灾害的发生,保障测井公司员工和公众的生命安全,最大限度地预防和减少特大事件及其造成的损害,维护测井公司的安全生产和社会稳定,促进测井公司全面、协调、可持续发展,测井公司依据国家有关法律、法规、标准,以及中国石化、胜利油田和山东省、东营市相关管理规定、应急预案等文件制定了综合应急预案。
发生测井公司级发生放射性、爆炸物品、火灾爆炸、人员重伤死亡以及公众关注容易引发舆情的事件立即上报,时限20分钟以内,每半小时一次持续报告。其他突发事件不得超过40分钟,境外事件不得超过5个小时。
1.2应急演练演练内容
包括测井公司在内的油田各单位应制定年度应急演练计划,按照“先单项后综合、桌面推演与现场实战相结合、循序渐进、时空有序”等原则,合理安排演练的频次、规模、形式、内容、时间、地点以及责任人等。
公司每半年至少组织1次综合性应急演练,三级单位每季度至少组织1次综合性应急(或现场处置方案)演练;成建制四级单位每月至少组织1次现场处置方案演练。
各单位应急演练应以相关应急预案或应急处置程序为基础,编制应急演练脚本。演练脚本应体现和执行应急预案所有环节,达到检验预案、锻炼队伍、提高应急处置能力的目的。
应急演练主要包括以下三种形式:
(1)桌面演练:没有时间压力情况下,发现和解决预案中的问题,取得一些有建设性的讨论结果,锻炼演习人员解决问题的能力,明确相互协作和职责划分问题,此演练是功能演习和全面演习的基础。桌面演练通常在会议室举行,由应急组织的代表或关键岗位人员参加,按照应急预案和标准行动程序,讨论所应急采取的应急行动。讨论问题不受时间限制;采取口头评论形式,并形成书面总结和改进建议。主要特点是口头“走一遍”应急响应的场景,成本低。
(2)功能演练:功能演练是指针对某项应急响应功能或其中某些应急响应行动举行的演练活动,可分为单项演习和组合演习,需要调用有限的资源开展现场演习并形成书面报告,目的是为了熟练和检验某些基本操作或完成某些特定任务所需的技术和实战能力。
(3)全面演练:全面演练是针对应急预案中全部或大部分应急响应功能开展演练。全面演练一般要求持续几个小时,采取交互式方式进行,演练过程要求尽量真实,调用更多的应急人员和资源,来开展人员、设备及其他资源的实战性演练,以检验相互协调的总体反应和应急能力。
1.3演练资料总结归档
应急演练结束后,演练单位要对演练的组织过程、效果进行评估,提出持续改进措施,完善应急预案,形成演练总结报告,存档并报上一级主管部门备案。
演练结束后做好总结,总结内容应包括:
(1)参加演练的单位、部门、人员和演练的地点;
(2)起止时间;演练过程和各相应时间节点;
(3)演练项目和内容;
(4)演练过程中的环境条件;
(5)演练动用设备、物资;
(6)演练效果;
(7)持续改进的建议;
(8)演练过程记录的文字、音像资料等。
2提升对危险品可能引起的社会安全危机的认知
测井公司生产经营过程中涉及有放射性源、爆炸物品,公司的人员聚集场所多,存在发生工业生产事故、自然灾害、公共卫生、社会安全事件等风险。加强各类突发事件的风险源分析,排查公司生产、生活、大型活动中,易发、高发突发事件的类型及各类施工、活动场所,做好各类事件的危害预测,分析突发事件与各类次生灾害、次生事件的关系、紧密程度,为科学制定应对措施提供依据。
公司通过宣传和培训,使各单位应将应急培训纳入本单位年度培训计划,每年年底前编制完成下年度应急培训计划,并上报公司应急指挥中心办公室。
同时各单位应定期开展单位负责人、分管领导、应急管理人员、应急救援人员、从业人员等各级各类人员,特别是新入厂、转岗员工的应急培训。
应急培训的主要内容有:
(1)危险源辨识、危害因素识别与风险分析。
(2)应急救援知识与技能,个人防护、自救、互救等基本知识。
(3)应急职责、应急响应及实施程序。
(4)应急设施、设备、器材的性能与使用方法。
(5)应急对策与防护措施。
(6)相关应急预案、应急处置程序。
(7)相关法律法规、标准和规章。
测井公司应急指挥中心办公室会同组织、宣传和培训等有关部门,通过各种宣传手段,向员工和各单位周边公众广泛宣传应急法律法规和普及安全生产突发事件预防、避险、自救、互救和应急处置知识。
应急指挥中心办公室组织测井公司应急培训,内容应包括:培训时间、培训内容、培训师资、培训人员、培训效果、培训考核记录等。
3加大危险品管理信息化等安全投入
[中图分类号]R197.321 [文献标识码]A [文章编号]1007―8517(2011)15―0133―02
医院信息系统是维持医院正常运行的重要保证,它在保障医院日常工作正常运行方面起着越来越重要的作用。医院信息系统的基础平台是医院信息网络,它是为医疗机构提供高效、规范运作的重要基础,信息网络是否正常运作直接关系到医院信息系统是否有效运行。然而,在医院信息系统的运作过程中,不可避免的会存在或人为或自然方面引发的故障。因此,为避免医院信息系统因故障而引起的对医院正常工作的影响,应该结合医院运行的实际情况,制定适合医院自身实际的医院信息系统故障分级应急管理预案。
1、制定医院信息系统应急预案的重要性
1.1 制定应急预案的目的
医院信息系统应急预案是保障医院正常运行的重要条件。制定一套科学、合理的医院信息系统应急预案,目的就是为了保障医院各个工作岗位的信息系统网络发生故障时,能够快速、有效的按照工作指引手册,在最短的时间内化解信息网络故障带给医院的影响,并在最短的时间内修复和完善医院信息系统的网络故障,保障医院正常运行。在制定医院信息系统应急预案时,一定要结合医院自身的运作情况,以保障应急预案的可操作性和应急能力。
1.2 制定应急预案的重要意义
随着社会信息化的发展,在医疗领域,数字化医院建设也越来越成为医院发展的趋势,同时,医院的各项业务刘信息化系统的依赖性也越来越强。可见,数字化医院对信息化系统的医疗性越强,则对医院信息系统的要求越高,一旦在医院业务的高峰期其信息系统发生故障,就会严重影响医院业务的正常办理,严重者甚至会导致医院业务系统的瘫痪状态。
因此,医院在应对突发事件的反应能力方面和在短时间内对自身信息系统的修复方面制定一整套预案,以避免医院大量尚未就诊的病人发生就医秩序的混乱,从而引发医院出现医疗隐患或对医院不好的社会负面影响。因此,医院制定一套简要、科学、操作性强的信息网络故障分级预案对医院自身的运行和良性发展具有举足轻承的意义。
1.3 制定应急预案的原则
医院在制定信息系统分级应急管理预案时,为了保障管理预案的实用性和可操作性,就要做到从医院自身发展的实际情况出发,根据医院的发展水平和运作方式,充分发挥医院各个部门的主观能动性,并能够实现各个部门之间的良性互动相互协助。同时,制定应急预案时要遵循以下两个原则:
首先,要明确界定出医院及其信息系统网络故障的范围及程度,并对各种信息网络故障进行分级,分别对各个级别的网络故障制定出相应的应对方案和解决措施。制定应急预案时要遵循第二个原则就是,要求医院各个工作岗位的人员,不但能够熟练掌握高度信息化、无纸化办公的工作方式,而且能够在医院信息网络出现故障时,具备迅速恢复传统工作流程和工作方式的应急能力,即医院要通过常态化应急演习,保障医院工作人员在预防故障和实际解决故障能力的培养。
2、医院信息系统故障的分级应急管理预案的建立
2.1 分级应急管理对各个岗位的要求
医院信息系统故障分级应急管理按照岗位划分,可以分为应急领导小组、医疗业务部门操作岗位及信息中心技术保障小组。
其中,应急领导小组的组成人员为医院领导、信息部门以及医院各部门的负责人,他们的任务是医院应急工作的组织协调,并统筹规划医院应急预案的制定,同时应急领导小组还要检查监督全院安全上作及安全措施的落实情况。
而医疗业务部门的操作人员则负责医院各项手工操作时所需的纸张、收费价目表、印刷体等办公用品。
信息中心技术保障小组的主要职责是制定信息网络故障应急预案的主体,并组分应急预案的演练,同时还要及时总结和汇报医院信息系统的运行状况和修改意见等工作。
2.2 信息系统故障应急预案的分级:
一级预案:由人为或自然灾害引起的设备故障。此时必须逐级上报,在主管领导的督促和协调下进行抢修。
二级预案:由于财务软件故障、交换机故障、数据处理错误等涉及到多个部门的瘫痪。应该及时上报信息部,对故障进行排除。
三级预案:单个部门出现网络故障或硬件故障而工作瘫痪。要立刻报告负责人进行故障排除。
四级预案:单个工作站点出现的软件或硬件故障。此时应该由值班人员及时排除故障。
在分级应急预案的执行过程中,应急领导小组应该根据具体故障情况下达应急预案的启动命令,并由信息部通知各个岗位的应急职责范围及工作方式,以确保在最短时间内排除故障,保障医院信息系统的正常运行。
2.3 信息系统灾难性故障应急处理流程
3、结语
综上,医院信息系统的安全不但要信息技术支撑,而且要医院各个部门之间相互协调。因此,维护好医院信息系统是一项复杂的系统工程,医院必须要进行定期检查,时刻监督应急预案的落实情况,并加强应急演练,在演练中发现问题,及时解决问题。
同时,医院所有人员不能存在侥幸心理,不但在技术上和管理上高度重视,而且要在每个人的心理上给予高度的重视,以更好的服务于病人,服务社会。
参考文献
随着信息化技术在日常工作中的不断普及,信息系统运维已经成为信息化工作中最重要的组成之一,信息系统运维涉及数据库、中间件、硬件、存储等多个方面的专业知识,而企业内部信息化工作人员不足,专业技术能力欠缺,为保证信息系统良好、顺畅运转,需要专业化程度较高的运维服务,即信息系统运维外包服务,聘请专业技术人员对系统数据库、中间件等各个环节进行运维,随着信息系统运维外包范围的不断扩大,信息系统运维外包造成的信息安全隐患及信息安全事件不断增加,做好信息系统运维外包安全工作便成了信息化运维工作的重中之重。
1 信息系统运维外包安全管理模式分析
我们先简单分析一下常见的运维外包安全管理的模式,随着信息系统运维外包范围的不断扩大,信息系统运维外包安全管理主要由简单管理模式、制度管理模式和混合管理模式三种。
1.1 简单管理模式
主要依靠“人盯人”和运维工程师的自律实现,即指定专门人员陪同并监督运维工程师的具体操作,要求运维工程师严格遵守职业道德,达到信息系统运维外包安全管理的要求。
简单管理模式的优点是管理成本小,管理过程简单,不需要配备专门的技术人员;存在的问题主要有可操作性不强和管理效果不佳两方面:
(1)由于陪同人员的业务素养不足、技术深度不够、运维过程监管不足等原因,使得“人盯人”方法对信息系统运维外包安全管理可操作性下降,存在造成系统运维外包安全事件的隐患。
(2)信息系统运维外包工作开展过程中,基本依靠运维工程师的自律和职业操守来实现信息系统运维安全管理,难以达到信息系统运维外包安全管理要求,影响运维安全管理效果。
1.2 制度管理模式
通过运维安全制度规范运维商和运维工程师的行为,降低运维风险,实现信息系统运维外包安全管理。在运维合同签订过程中明确运维安全管理制度,并其签订运维保密协议,共同建立违反制度的处罚机制,明确约定处罚内容,在运维工程师入场工作之前先宣布管理制度和惩罚机制,用以约束其运维操作。
制度管理模式的优点是管理成本小,管理过程较为简单,管理体系相对成熟;存在的问题主要有管理可操作性不强和属于事后管理两个方面:
(1)运维管理制度的执行情况不易监控,可能造成管理制度、保密要求和惩罚机制形同虚设,不能够有效地发挥作用,降低运维系统安全管理的可操作性。
(2)制度管理模式属于事后管理范畴,即只能在事故发生后按照管理制度、保密协议和处罚机制进行追责,且追责过程中提取相关证据较为困难,追讨损失过程较为复杂。
1.3 混合管理模式
通过制度和运维安全管理设备(如堡垒机)相结合进行信息系统运维外包安全管理,即在制度管理模式的基础上,增加运维管理设备,该设备具有操作命令记录、操作过程录屏、操作权限管理、访问范围管理和访问时效管理等几个基本的功能,实现对信息系统运维外包安全的有效管理,
混合管理模式的优点是管理的可操作性强,管理体系较为成熟,属于对信息系统运维过程既有事前、事中管理,又有事后审计管理;存在的问题主要有管理成本较大和管理过程复杂两个方面:
(1)运维安全管理设备需要单独购买且需要专人进行维护,这加大了企业信息系统运维安全管理的成本。
(2)运维安全管理设备需要依据实际运维情况进行配置变更,要求设备管理人员充分了解企业网络架构、业务系统构成等内容,结合运维人员的实际情况进行操作权限、访问范围、访问时限等内容的管理,使得信息外包安全管理过程变得较为复杂。
2 信息系统运维外包安全隐患分析
依据对信息系统运维外包安全管理模式的分析,信息系统运维外包存在以下几点隐患:
2.1 信息系统运维外包造成泄密
随着企业日常工作对信息化的依赖不断加大,企业销售、财务、人力资源等重要信息均通过信息系统进行管理,如果对信息系统运维外包过程管理不严,极有可能造成重要数据泄密,对企业的发展壮大和日常工作开展造成影响。
2.2 外包工程师操作失误造成信息系统瘫痪
运维工程师技术水平良莠不齐,如不对外包工程师的运维操作进行严格规范,有可能由于操作不谨慎或误操作造成重要信息数据丢失、损坏,导致信息系统异常,甚至造成信息系统瘫痪,影响正常业务开展。
2.3 外包工程师在信息系统中植入病毒或预留后门
部分外包工程师由于利益驱动在信息系统中植入病毒或预留后门,方便其日后获取信息系统的各类资源和数据,造成信息系统运行隐患,甚至导致企业触犯国家相关法律、法规,给企业造成名誉或经济损失。
2.4 运维外包造成过度依赖
大量信息系统运维外包,造成企业内部信息化机构学习意愿下降,专业技术素养增长缓慢,发生突发事件且运维商无法及时到场,可能造成信息系统长时间停止服务,甚至长时间瘫痪,影响企业正常业务,给企业造成经济损失。
3 信息系统运维外包安全管理方法
针对信息系统运维安全隐患分析中提到的问题,我们从强化运维过程管理、加强操作风险管理、降低系统运行隐患、增强事件处理能力等四个方面进行分析,发掘出信息系统运维外包安全管理方法,用以提高信息系统运维外包安全管理水平。
3.1 完善制度管理,增加硬件保障,强化运维过程管理
(1)系统运维管理制度是信息系统运维外包安全管理工作的基础,只有拥有科学、完整、自成体系的管理制度,才有可能真正的做好信息系统运维外包安全管理工作,而制度的建立是一个长期的动态过程,即针对新的技术和管理要求要及时修订制度,将其纳入管理范畴,确保制度能够完全覆盖信息系统运维过程,同时认真落实制度,使其充分发挥规范运维商和运维工程师的作用,否则完善的制度仅仅是“一纸空文”。
(2)建立并认真执行安全事件惩罚机制,签订信息安全保密协议,加大对运维商运维过程中发生事故的处罚力度,提高运维商在出现事故后的处理成本,能够促使运维商主动加强对其人员的管理,减少信息系统运维安全事故的发生机率。
(3)引入运维安全管理类设备(如堡垒机),加强对运维人员运维过程的管理,该类设备能够全面记录运维操作、统一分配运维权限、细化管理访问范围和精确控制运维时效等方面的功能,属于信息系统运维事中管理和事后审计设备,充分利用该类设备的各项功能,对运维工程师运维操作情况进行有效规范、记录,确保对运维工程师的操作“有迹可寻”。
3.2 规范运维操作,拟定应急措施,加强操作风险管理
(1)运维工程师在进行重要操作(如数据库参数配置等)时必须出具书面告知书,经双方签字确认后方可进行操作,告知书中至少应包括操作内容、涉及信息系统、预计完成时间、可能出现的风险及风险等级预估。
(2)针对预估等级较高的风险应充分预估发生机率、影响范围等内容,拟定应急措施,确保及时解决。
(3)制定回退方案并预留充足的回退时间,针对运维过程中发生的不可预期或难以解决的问题,确保能够及时回退,保证信息系统正常运行。
3.3 测评系统安全,定期扫描漏洞,降低系统运行隐患
(1)运维工程师对信息系统进行升级后,及时聘请拥有安全评估资质的第三方进行应用系统安全评估,评估后出具有效的评估报告,依据评估结果要求运维商进行整改,直至所有问题被解决。
(2)定期对网络设备、服务器操作系统等进行漏洞扫描,有效防止系统被植入病毒或预留后门,针对新发现的漏洞及时联系运维商进行处理,确保信息系统安全运行。
3.4 提升业务素养,组织应急演练,增强事件处理能力
(1)通过专项业务培训、自主学习等方法,不断加强信息化工作人员业务素养,学习内容不仅包括数据库、信息化设备硬件维护等专业知识,还应包括管理学、统筹学、统计学等方面的知识,才能真正做到“管的高效、管的明白、管的合理”,才能促进信息系统运维外包安全管理工作朝着正确的方向发展。
(2)强化应急预案演练工作,定期组织信息化应急预案演练。演练前认真筹备,拟写演练方案,联系运维上进行应急演练技术支持;演练过程中严格按照方案进行演练,切实提高演练效果;演练后针对演练中发现的问题及时汇总、总结,逐步提高信息化工作人员处理突发事件的能力。
4 结束语
业务连续性管理概念最早脱胎于传统的IT备份与容灾恢复计划,但是随着IT系统规模的不断扩大,传统的以技术为中心的灾备越来越难保障企业在灾难面前的关键业务可用性,企业更需要一套标准化、分工明确的管理体系去帮助其应对灾害,这不仅包括IT技术层面,还体现在整个机构(企业、政府、组织)的管理架构层面。通常认为,业务连续性管理是一个一体化的管理过程,通过这一过程,可以识别威胁组织机构的潜在风险,并提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能力,从而保护利益相关者的资产,组织机构的信誉、品牌及其创造价值的活动。
业务连续性管理的历史可追溯到20世纪60年代,那时业务连续性管理的思想和方法,是包含在风险管理、危机管理等理论中,并未单独作为一门学科来独立研究。而那时人们关注的主要是事件本身直接造成的损失(如人和物等),而对事件造成的其他损失(业务停止、工厂停工等)并未给予足够的重视,或是由于客观条件和技术手段所限,也没有能力对这方面提出更高的要求,只能是尽力而为。计算机系统在解决系统持续运行的问题时,率先对单点故障采用了冗余措施,这就是最早业务连续性管理思想的开端。
70年代,出现了容灾恢复计划的概念。当出现大的故障和危机时,中断是以天为单位来计算而不是以小时为单位。金融组织,如银行和保险公司大都建有另外的后备点,备份磁带存储在远离主中心的地点。
80年代后,随着计算机技术的迅速发展和普及,人们对信息技术的依赖越来越强烈,从而对数据及信息系统的安全提出了新的要求。此时催生了一种新技术的发展——灾难恢复(Disaster Recovery,简称DR),而在研究各种灾难恢复技术时,自然要考虑如何尽快恢复业务运行,即业务连续(Business Continuity,简称BC),因为只有业务连续才是灾难恢复的最终目的。在这种背景之下,业务连续性计划的理论和方法得到了广泛的研究和重视。
90年代后,随着IT与业务的相互融合,业务连续性管理不仅仅局限于信息系统的灾难恢复服务,而是延伸到更为广泛的企业业务连续性管理领域。业务连续性管理不再局限在信息系统的可靠运行上,而是转移到了面向终端客户,转向服务的业务流程的连续保障方面。
为更好地理解业务连续性管理的过去和现在,笔者简要介绍一下其发展过程中三个重要的递进的概念,即灾难恢复(DR),业务连续计划(BCP)及业务连续性管理(BCM)(见图1)。
在业务连续性管理理论发展的40年中,真正受到重视是在20世纪90年代,尤其是2001年美国911恐怖事件之后,开始了快速发展。2003年国际BCM权威组织DRII(国际灾难恢复协会)和BCI(国际业务持续协会)联合的业务连续性专业人士所用的国际最佳惯例,标志着业务连续性管理完整的知识体系形成。
作为一个相对较新的概念,业务连续性管理相关工作在中国刚刚起步,政府机构、学术界和企业界都已经认识到业务连续性管理的重要性并逐步重视起来。国内在这方面研究大致从两个领域进行:一个是围绕信息安全带来的新型安全危害事件所作的研究,典型应用就是国务院信息化办公室2005年颁布的《重要信息系统灾难恢复指南》;另一个是围绕应急管理体系所作的研究和实践,以2003年SARS挑战为契机,政府适时提出了建立国家应对自然灾害、公共卫生事件的应急管理体系,并于2007年11月1日颁布了《中华人民共和国突发事件应对法》。2008年汶川地震举国上下万众一心应对灾难,有效地展现了过去了10年中国在灾难应对、危机处置、紧急救援和善后处理方面所取得的成就。
国内监管现状
当今银行的日常业务运营高度依赖于信息系统,任何信息系统故障都会影响到银行的正常运转,造成经济损失或社会影响。在这种业务与信息系统紧密联系的模式下,一旦因为突发灾难造成关键业务数据丢失或信息系统不能尽快恢复,将严重地影响银行业务的正常运营,甚至会带来灭顶之灾。美国明尼苏达大学对灾害所造成的影响分析显示,各行业最长可忍受损失为日常营业额的50%;如两星期无法恢复信息系统,75%的公司业务将停顿,43%的公司将无法再开展业务;没有实施灾难备份的公司,将在灾后2~3年破产。
美国的权威信息调查机构Strategic Research Corporation列出的各种行业停机一小时所造成的损失(见表1),银行业占据榜首。
从社会影响层面分析,无论业务运营对信息系统的依赖程度还是信息系统管理水平等方面来看,银行业总被誉为各行业中的“领头羊”。这不仅是由于其起步早,20世纪90年代末部分银行已经开始实施数据大集中和灾备中心的建设了,更是由于2006年以来,银行业对业务连续性管理的认识不断深入。
近几年,我国对业务可持续性管理及其相关的信息安全、应急管理、灾难恢复等领域相继了监管规范和指引,如《银行业信息系统突发事件应急管理规范》、《商业银行信息科技风险管理指引》等,《商业银行业务连续性监管指引》(以下简称《指引》)更是对银行风险管理提出了的更高、更明确的要求。《指引》强调了业务连续性管理不仅是IT部门的工作职责,还需要由上而下地覆盖各业务部门的日常工作,银行业对外服务及支持对外服务的所有业务都必须建立配套的连续性计划,并通过内部审计等方式确保业务连续性计划的良好实施。同时,IT信息系统在业务连续性管理中的作用是举足轻重的,这不仅是由于业务连续性管理脱胎于IT的信息灾备管理,更是由于信息系统故障导致的业务中断在业务运行风险中是最常见最复杂的。因此,《指引》从业务连续性管理组织架构、执行层面、风险影响分析、资源建设等方面强调了IT部门在业务连续性管理中的角色。
《指引》同时还强调了商业银行在遵从监管的过程中,从风险影响识别、关键业务系统的判定、应急体系的组建、内部审核管理等方面都需要从各行的实际情况出发,制定符合各行需要的管理政策,不搞一刀切。从我国银行业的组成来看,国有五大银行、股份制商业银行、各城市商业银行、外资银行和其他银行业金融机构由于历史条件不同、管理理念差异、国家政策导向关系在业务连续性管理方面建设的成熟度差异很大,在《指引》的执行层面,也会面临不同的挑战。
交通银行实践
交通银行根据银监会《指引》的要求,从实际情况出发,建立了一整套业务连续性管理的企业战略,重视流程、平台、文化三方面的重点问题,以业务为中心、以流程为导向、以技术为手段、以文化为保障(见图2),获得了较为显著的效益。
以业务为中心,就是强调业务保障为整体战略的出发点和效益点,从业务战略到业务需求变化,从而导致对整体信息化保障的高要求。交通银行是中国五大国有大型商业银行之一,目前各项业务发展迅猛,机构遍布国内250多个城市,营业网点数达到2600多个,且在中国香港、纽约、东京、新加坡、首尔、法兰克福、悉尼、伦敦等地设有分(子)行,在中国台北设有办事处。交通银行已经走上了国际化、综合化的道路,业务处理模式也正向全球24小时不间断运营方式发展。
交通银行作为2010年上海世博会商业银行全球合作伙伴,肩负起保障世博金融服务安全的使命。世博会对应急管理和业务连续运作提出了明确、细致的要求,加之国内金融监管机构对应急管理的监督和检查力度不断加强,因此,统一应急管理工作保障制度、规范应急体系和流程、完善应急管理体系整体规划、完善信息系统和基础设施应急预案及必要的演练,对交行来说已成为保障工作的重中之重。
以流程为导向,就是无论从战略角度还是各部门的执行层面,均制定了与业务连续性管理相配套衔接的服务流程,保障管理措施的规范执行。交通银行一贯重视业务连续性的建设,相继制定了一系列管理办法,如《交通银行突发事件管理办法》、《交通银行信息系统应急管理办法》、《交通银行媒体危机应对管理办法》、《交通银行数据中心可持续性管理办法》等。并且从高管层开始,建立了业务连续性管理组织架构,按照主管部门、执行部门、保障部门的分工,组建了专门的风险管理委员会,直接向董事会负责。其下由风险管理部负责日常管理事项,信息技术管理部、数据中心等各条线业务部门各司其职,共同参与业务连续性管理的各个环节。
为了提高运行管理水平,数据中心按照IT服务管理的国际标准ISO20000和ISO27001建立了规范的IT服务和信息安全的管理体系。交通银行数据中心是国内金融业首家通过ISO20000的机构,在ISO20000的框架内,就包含了可持续性管理流程的内容。
经过梳理的持续性管理具有以下活动和过程:风险和灾难规避评估、确定整体恢复策略、确定与建设业务持续性计划、设计开发持续性和灾备预案、预案演练、预案维护。通过ISO20000框架内各流程之间的互动关系,打破了职能部门之间的技术壁垒,实现减少服务不可用的时间或者最小化业务活动中断影响的流程目标。
经过几年的摸索与实践,我们在持续性管理流程下建立了预案体系、演练体系和应急体系,并辅以管理细则和绩效评估,定期回顾流程执行情况,落实流程执行效果。
预案体系分为四个层次,第一层是《生产突发事件现场应急处置预案》,其中定义了突发事件的通用应急响应流程,是所有其他预案的入口;第二层是场景预案,大致覆盖了可能遇到的绝大多数突发事件场景;第三层是技术预案,详细描述了应急恢复的技术细节;第四层是操作手册和资料性文档,作为技术预案的补充。目前数据中心已有各类预案百余份,并定期进行修订维护。
演练体系分两个层面:技术部门内部演练和跨部门联合演练。目前数据中心已经初步实现演练常态化,定期进行场景演练和技术演练,也多次与业务部门联合组织进行业务应急预案的演练。
应急体系可分为事件监测与发现、组织评估影响度、应急处置、后续回顾四个环节,辅以应急预案的制订和演练,尽量主动监测与预防影响业务持续性事件的发生,减少意外事件对业务的影响。
以技术为手段,就是强调信息技术在实现业务连续性管理目标中的重要作用,发挥交通银行在信息技术上的领先优势,实现业务连续性管理的跨越式发展。自2006年数据中心成立以来,交通银行已经在灾备与应急方面取得重大突破,在国内金融业具有领先优势。交通银行建立了先进的同城灾难备份系统,实现了大规模系统灾备切换的自动化,大大缩短了系统切换时间,并且在国内银行中首次实现了数据中心、同城中心之间的业务系统切换运行和回切,业务恢复时间仅1.5小时,并做到了零数据丢失(RPO为0),达到了国际先进水平。2011年,数据中心又在关键系统同城双中心运行的基础上成功实现了新一代海外行系统分钟级切换,首次将灾备切换时间缩减至10分钟,取得了令人瞩目的成就。2011年,数据中心制定了两地三中心灾备体系规划,以“统筹规划、分步实施;成本优先、兼顾效率;分级灾备、保障有效”为指导原则,建设上海、武汉的“两地三中心”灾难备份体系,以增强IT防范风险能力,保障业务连续性。
在充分理顺了业务连续性管理流程后,数据中心利用自身的技术能力,对管理流程进行平台化改造,在已经建设完成的BCM平台中,全面覆盖风险分析、业务影响度分析、预案开发和管理、应急演练、应急响应、应急恢复等领域,形成一套完整的IT业务连续性管理闭环。通过自动化工具提供了全新的演练方式提高演练成效,实现预案策略的快速查询和定位,在应急响应过程中提供操作和指挥层面的信息支持。这一平台工具在2011年分钟级灾备切换演练中发挥了重要作用。
以文化为保障,就是充分营造业务连续性管理的企业文化氛围,统一全员意识,在各项工作中渗透融合。应急保障是数据中心的部门职责之一,为了向数据中心每个员工灌输业务连续性理念,落实流程要求,中心一方面通过培训、宣讲等方式,使员工了解业务连续性管理的概念及目标,另一方面将与业务连续性管理相关的绩效指标分解至各个职能部门,形成具备可操作性的工作内容。
在全员参与应急管理的氛围中,业务连续性管理与数据中心的“大一线”运行值班管理制度结合,充分发挥专职值班经理在应急指挥方面的职业素养,以及各部门技术值班人员的专业技能,使用业务功能、信息安全等九项标杆评估突发事件对业务的影响度,利用手机短信、电话外呼、VPN远程协作等多种技术手段对突发事件及时响应、快速恢复。
将应急能力作为员工技术能力体系的重要指标之一,平战结合,加强主动性演练,在一线人员范围内常态化组织场景演练,达到检验预案有效性和强化员工应急意识的作用,同时重视每次演练后的总结评价,争取参与人员都有所收获,有所成长。
挑战与应对
在各商业银行进行业务连续性管理建设过程中,普遍会存在以下关键问题:
如何建立有效的应急响应体系,有效汇总及传达突发信息,为应急决策提供依据,提高应急响应时的整体快速反应能力;
如何整合数量庞大且结构松散的应急预案,以实现应急情况下的准确快速定位,提高应急管理流程及预案的可操作性;
如何建立有效的演练体系,以提高预案和演练的紧密程度,并形成演练的长效机制,通过演练检验预案的有效性。
应对之一:从战略管理高度考虑业务连续性管理。业务连续性管理不仅是指IT系统的恢复,还包括管理层面的操作流程,包括事前的危机预测、事中的危机管理和应急管理以及业务连续性计划等。业务连续性管理是组织机构整个管理层面的操作,更强调的是人的作用,应该从战略管理的高度,关注流程、人员、设施和计划。
业务连续性管理除了组织体系、人员、基础设施等关键资源之外,还包括制度、流程以及与业务连续性管理相关的文化理念,这些关键因素共同构成了整个业务连续性管理体系及方法论。
应对之二:强调业务连续性管理的长期战略。业务连续性管理理念发展至今,走过了至少40年的时光。而一个企业要完整地实施业务连续性战略,达到保障业务不间断运行的目标,也不是一朝一夕能够完成的。灾备中心的建设、企业信息系统高可用性梳理、企业文化的营造都需要长期细致的工作。因此,必须强调管理战略的长期性,以多年规划的方式制订远期愿景和战略部署,分阶段实现里程碑目标,切忌在高层决策时摇摆不定,朝令夕改。
中国医院信息化建设经过20多年的发展历程目前已经进入了一个高速发展时期。据2007年卫生部统计信息中心对全国3765所医院(其中:三级以上663家:三级以下31O2家)进行信息化现状调查显示,超过80%的医院建立了信息系统…。随着信息网络规模的不断扩大,医疗和管理工作对信息系统的依赖性会越来越强。信息系统所承载的信息和服务安全性越发显得重要。
1、医院信息安全现状分析
随着我们对信息安全的认识不断深入,目前医院信息安全建设存在诸多问题。
1.1信息安全策略不明确
医院信息化工作的特殊性,对医院信息安全提出了很高的要求。医院信息安全建设是一个复杂的系统工程。有些医院只注重各种网络安全产品的采购没有制定信息安全的中、长期规划,没有根据自己的信息安全目标制定符合医院实际的安全管理策略,或者没有根据网络信息安全出现的一些新问题,及时调整医院的信息安全策略。这些现象的出现,使医院信息安全产品不能得到合理的配置和适当的优化,不能起到应有的作用。
1.2以计算机病毒、黑客攻击等为代表的安全事件频繁发生,危害日益严重
病毒泛滥、系统漏洞、黑客攻击等诸多问题,已经直接影响到医院的正常运营。目前,多数网络安全事件都是由脆弱的用户终端和“失控”的网络使用行为引起的。在医院网中,用户终端不及时升级系统补丁和病毒库的现象普遍存在;私设服务器、私自访问外部网络、滥用政府禁用软件等行为也比比皆是。“失控”的用户终端一旦接入网络,就等于给潜在的安全威胁敞开了大门,使安全威胁在更大范围内快速扩散。保证用户终端的安全、阻止威胁入侵网络,对用户的网络访问行为进行有效的控制,是保证医院网络安全运行的前提,也是目前医院网络安全管理急需解决的问题。
1.3安全孤岛现象严重
目前,在医院网络安全建设中网络、应用系统防护上虽然采取了防火墙等安全产品和硬件冗余等安全措施,但安全产品之间无法实现联动,安全信息无法挖掘,安全防护效果低,投资重复,存在一定程度的安全孤岛现象。另外,安全产品部署不均衡,各个系统部署了多个安全产品,但在系统边界存在安全空白,没有形成纵深的安全防护。
1.4信息安全意识不强,安全制度不健全
从许多安全案例来看,很多医院要么未制定安全管理制度,要么制定后却得不到实施。医院内部员工计算机知识特别是信息安全知识和意识的缺乏是医院信息化的一大隐患。加强对员工安全知识的培训刻不容缓。
2、医院信息安全防范措施
医院信息安全的任务是多方面的,根据当前信息安全的现状,医院信息安全应该是安全策略、安全技术和安全管理的完美结合。
2.1安全策略
医院信息系统~旦投入运行,其数据安全问题就成为系统能否持续正常运行的关键。作为一个联机事务系统,一些大中型医院要求每天二十四小时不问断运行,如门诊挂号、收费、检验等系统,不能有太长时间的中断,也绝对不允许数据丢失,稍有不慎就会造成灾难性后果和巨大损失医院信息系统在医院各部门的应用,使得各类信息越来越集中,构成医院的数据、信息中心,如何合理分配访问权限,控制信息泄露以及恶意的破坏等信息的访问控制尤其重要:PACS系统的应用以及电子病历的应用,使得医学数据量急剧膨胀,数据多样化,以及数据安全性、实时性的要求越来越高,要求医院信息系统(HIS)必须具有高可用性,完备可靠的数据存储、备份。医院要根据自身网络的实际情况确定安全管理等级和安全管理范围,制订有关网络操作使用规程和人员出入机房管理制度,制定网络系统的维护制度和应急措施等,建立适合自身的网络安全管理策略。网络信息安全是一个整体的问题,需要从管理与技术相结合的高度,制定与时俱进的整体管理策略,并切实认真地实施这些策略,才能达到提高网络信息系统安全性的目的。
在网络安全实施的策略及步骤上应遵循轮回机制考虑以下五个方面的内容:制定统一的安全策略、购买相应的安全产品实施安全保护、监控网络安全状况(遇攻击时可采取安全措施)、主动测试网络安全隐患、生成网络安全总体报告并改善安全策略。
2.2安全管理
从安全管理上,建立和完善安全管理规范和机制,切实加强和落实安全管理制度,加强安全培训,增强医务人员的安全防范意识以及制定网络安全应急方案等。
2.2.1安全机构建设。设立专门的信息安全领导小组,明确主要领导、分管领导和信息科的相应责任职责,严格落实信息管理责任l。领导小组应不定期的组织信息安全检查和应急安全演练。
2.2.2安全队伍建设。通过引进、培训等渠道,建设一支高水平、稳定的安全管理队伍,是医院信息系统能够正常运行的保证。
2.2.3安全制度建设。建立一整套切实可行的安全制度,包括:物理安全、系统与数据安全、网络安全、应用安全、运行安全和信息安全等各方面的规章制度,确保医疗工作有序进行。
2.2.4应急预案的制定与应急演练
依据医院业务特点,以病人的容忍时间为衡量指标,建立不同层面、不同深度的应急演练。定期人为制造“故障点”,进行在线的技术性的分段应急演练和集中应急演练。同时信息科定期召开“系统安全分析会”。从技术层面上通过数据挖掘等手段,分析信息系统的历史性能数据,预测信息系统的运转趋势,提前优化系统结构,从而降低信息系统出现故障的概率;另一方面,不断总结信息系统既往故障和处理经验,不断调整技术安全策略和团队应急处理能力,确保应急流程的时效性和可用性。不断人为制造“故障点”不仅是对技术架构成熟度的考验,而且还促进全员熟悉应急流程,提高应急处理能力,实现了技术和非技术的完美结合。
2.3安全技术
从安全技术实施上,要进行全面的安全漏洞检测和分析,针对检测和分析的结果制定防范措施和完整的解决方案。
2.3.1冗余技术
医院信息网络由于运行整个医院的业务系统,需要保证网络的正常运行,不因网络的故障或变化引起医院业务的瞬间质量恶化甚至内部业务系统的中断。网络作为数据处理及转发中心,应充分考虑可靠性。网络的可靠性通过冗余技术实现,包括电源冗余、处理器冗余、模块冗余、设备冗余、链路冗余等技术。
2.3.2建立安全的数据中心
医疗系统的数据类型丰富,在不断的对数据进行读取和存储的同时,也带来了数据丢失,数据被非法调用,数据遭恶意破坏等安全隐患。为了保证系统数据的安全,建立安全可靠的数据中心,能够很有效的杜绝安全隐患,加强医疗系统的数据安全等级,保证各个医疗系统的健康运转,确保病患的及时信息交互。融合的医疗系统数据中心包括了数据交换、安全防护、数据库、存储、服务器集群、灾难备份/恢复,远程优化等各个组件。
2.3.3加强客户机管理
医院信息的特点是分散处理、高度共享,用户涉及医生、护士、医技人员和行政管理人员,因此需要制定一套统一且便于管理的客户机管理方案。通过设定不同的访问权限,加强网络访问控制的安全措施,控制用户对特定数据的访问,使每个用户在整个系统中具有唯一的帐号,限定各用户一定级别的访问权限,如对系统盘符读写、光驱访问、usb口的访问、更改注册表和控制面板的限制等。同时捆绑客户机的IP与MAC地址以防用户随意更改IP地址和随意更换网络插口等恶意行为,检查用户终端是否安装了信息安全部门规定的安全软件、防病毒软件以及漏洞补丁等,从而阻止非法用户和非法软件入网以确保只有符合安全策略规定的终端才能连入医疗网络。
2.3.4安装安全监控系统
安全监控系统可充分利用医院现有的网络和安全投资,随时监控和记录各个终端以及网络设备的运行情况,识别、隔离被攻击的组件。与此同时,它可以强化行为管理,对各种网络行为和操作进行实施监控,保持医院内部安全策略的符合性。
2.3.5物理隔离
不过,在少数事故中,也有煤矿领导非常重视安全生产,投入巨资上马瓦斯浓度超限报警系统、紧急救援系统等。但当事故发生时,这些系统却形同虚设,仍造成大量人员伤亡。
其实,不光是煤矿,在防洪、地震、消防等许多领域,通过近年发生的一系列重特大公共事件,反映出我国应急管理方面存在的问题十分突出:投入巨资建设完成,关键时刻却不能发挥所期待的作用。究其原因,主要就是平战分离。由于平时缺乏信息积累、应急演练和日常维护,致使应急联动体系在关键时刻难以发挥作用。那么,该如何充分利用资源,达到平战结合、平灾兼容的目的?
平时:应急信息管理
中国安全生产科学研究院院长刘铁民在谈到应急信息管理如何平战结合时表示,真正的应急信息管理系统应具备两方面功能:一是平时,用于应急信息管理;二是战时,用于应急指挥决策。
在平战结合实践中,北京市海淀区的建设模式值得推荐。“转到北大南门的视频”、“转到人大东门的视频”、“查看一下装备城管通的执法车的位置”,海淀区政府办公大楼的“三中心”大厅里工作人员不停地切换着视频。之后,监控室的工作人员开始模拟进入重大突发事件状态,让应急指挥中心和非紧急事务中心互连互通,融为一体。工作区后面的玻璃墙,一下变得完全通透。玻璃墙里面用于电话电视会议的报告厅成为临时指挥中心,领导通过玻璃墙可以直接看到屏幕墙上的内容。
刘铁民介绍,平时应急信息管理用于对各种信息的数据维护、查询、统计、评估、预测。具体包括:预防阶段的基础数据管理、危险源管理、关键基础设施管理、监测监控信息管理和安全教育管理等,准备阶段的应急资源管理、应急预案管理、应急能力评估、应急演练信息管理和预测预警信息管理等。
目前我国已初步形成了应急预案框架体系,但今后还应在预案的标准化操作程序(SOPS)和保障支持系统方面加大工作力度,并对预案的编制、演练、修改进行管理,采用电子预案和电子演练沙盘等技术,提高各类应急预案的可操作性和有效性。
对于各级政府部门应急能力的建设,目前国内还没有相关法规、标准等给予科学指导,也没有对应急能力进行科学评估的方法和程序。中国安全生产科学研究院通过国家“十五”滚动项目城市突发重大事故风险控制与应急技术研究及试点及国家自然科学基金项目城市重大事故应急能力评估指标及评估方法研究,构建了城市应急能力评估的指标体系、评估方法和程序,开发了应急能力评估管理软件系统,为各级政府部门应急能力的建设提供了科学依据和评价手段。
战时:应急指挥决策
养兵千日,用兵一时,粮草充足,还需要有好的战略战术。对平时的信息进行大量收集整理,并建立一套科学规范的风险评测体系,这就能为“作战”打下很好的基础。
刘铁民介绍,战时应急系统包括响应阶段的接处警信息管理,联合指挥协调管理,现场信息采集与交互、应急资源调度管理,应急辅助决策支持、应急信息等,还有恢复阶段的灾情统计分析、受灾补助管理和应急救援案例管理等。
接处警信息管理是对突发公共事件的接处警信息进行管理,提供统一的事件信息,为后续事件的调查分析提供原始数据。联合指挥协调管理要建立现场紧急事件管理系统,提供标准化的工作表格、信息支持、信息记录与交流手段。现场信息采集与交互是通过现场监测监控系统、传感器网络系统、救援人员手持式信息设备等,快速采集现场信息,为事件指挥人员提供实时现场信息和决策依据。应急资源调度管理进行应急资源的优化调度和追踪管理。应急辅助决策支持指综合应用各类基础信息和事件信息,通过多种技术手段,提供紧急事件指挥决策方案。应急信息管理是对于突发公共事件信息进行统一管理,并通过多种手段向受灾害影响人群提供及时准确的警报信息,向社会大众提供权威、一致的事件信息。灾情统计分析管理对灾害所造成的损失、应急资源的消耗情况等进行及时、准确的现场记录和灾后分析。受灾补助管理对受灾民众、企事业单位和应急救援人员进行灾后补偿和补助管理,合理分配救灾资金和物质,并对救灾资金和物质的使用情况进行跟踪管理。应急救援案例管理对每次突发公共事件的应急救援的过程信息、灾后分析报告、调查报告、经验教训总结等进行管理。
平战结合五大关键
医院信息系统作为基础平台,贯穿业务流程的各个环节,起着核心支撑作用,是医疗服务和医院管理的生命线。医院信息系统运行中断,意味着医疗服务的中断,直接影响患者就诊及治疗。
近年来,随着“以病人为中心”的数字化医院管理系统的建设,彻底改变了传统的诊疗模式,电子病历、电子报告、电子医学影像、电子付款代替了传统的诊疗及支付方式,医疗服务效率和质量不断提升,医疗服务成本不断降低,逐步向无纸化、数字化诊疗系统迈进。医院数字化管理系统的使用,产生大量的数字信息,诊断、检验、治疗、物料管理各个流程都依赖信息系统传递信息,汇总信息,作出决策。因此,信息系统的数据安全不容忽视,特别是病人的诊疗信息必须永久保留,不得遗失;医院信息系统必须7×24连续运行,不得中断。
由于医院信息系统建设的渐进性,数据安全和业务连续性在建设之初并不凸显,但是随着系统运行时间的不断延伸和系统复杂性、关联性的增加,大量的诊疗信息、支付信息、图像信息存储在系统中,数据安全保障问题备受关注。而且,随着网络化应用及系统访问量的增加,硬件故障、网络故障及人为误操作可能造成业务中断的问题,也越来越突出。为此,医院对信息系统的数据安全性及运行连续性提出了更高要求,建设安全的医院信息系统,成为医院信息管理者的首要任务。
同时,正是由于信息系统建设的渐进性和业务连续性的要求,决定了安全信息系统的建设必须以现有系统为基础,因地制宜,实施差异化的建设规划。
独立业务系统的安全隐患凸显
北京航天中心医院信息系统,硬件环境复杂多样,运行平台既有小型机,也有PC服务器,存储系统既有FC SAN又有直连磁盘阵列。面对纷繁复杂的应用,信息系统安全建设必须合理规划,按需选择方案。
航天中心医院的核心业务系统都已采用高可用模式,运行在小型机及高性能服务器平台之上,通过FC SAN提供安全的数据存储服务及连续运行保障。但是,尚有一部分独立应用系统还是单机运行,数据存放在本地或直连磁盘阵列上,其中,只有一部分数据采用定期备份的方式,虽然数据安全有一定的保障,但是一旦故障发生,数据丢失率高,业务中断时间长,无法满足医疗信息服务要求。
针对上述独立业务系统,我院提出了建设安全存储及快速应急响应系统的要求:
1. 不改变现有应用环境;
2. 不影响应用性能;
3. 数据丢失率最小;
4. 应急响应时间最短。
根据医院要求和医院实际情况,我们对比了很多可选方案,如虚拟化方案、主机硬盘备份与恢复方案、虚拟化灾备方案以及持续数据保护方案。这些方案对比起来,虚拟化方案虽然业务实时性最高,但投入成本也非常之高;主机硬盘备份与恢复方案对然可以通过备份软件实现基于文件系统之上的数据备份,保障数据安全,但故障时,数据丢失率高,需先恢复数据后恢复应用,等待时间比较长;而持续数据保护方案是通过数据复制与持续数据保护技术的结合,保护操作系统、应用环境及数据,发生故障时,可选择恢复最接近故障时刻的数据,实现快速业务接管,其优势是对业务系统影响小,数据丢失率低、应急恢复时间短、成本适中、管理维护简单。
所以,通过多种方案的对比以及综合评价技术可行性和投资成本,我院选择了信核数据科技有限公司提出的“持续数据保护方案”。
持续数据保护方案实施要点
通过IP网络,将现有应用服务器上的数据复制到OSNSolution CDPServer的存储空间上,同时,通过持续数据保护技术,对每一应用服务器的备份数据分别设置持续数据保护点。初始配置完成后,无需人工干预,数据复制和持续数据保护功能自动实现,备份数据和持续数据保护点的数据随时可以校验。方案部署见图。
信核数据持续数据保护方案采用同步数据复制方式,确保备份数据与业务数据的实时性,一旦发生故障,数据丢失率接近于零。故障时,可将备份数据直接映射给原应用服务器,快速恢复业务运行;同时,方案中配置了一台应急服务器,在原硬件故障短时无法排除时,可启用应急服务器,快速恢复业务服务。故障排除后,可在不影响业务系统运行的前提下,恢复应用服务器本地磁盘数据,待数据恢复完成后,业务切换到本地运行。
此数据持续数据保护方案的实施,涉及多个在线业务系统,各系统的硬件设备品牌不同、型号不同,应用环境操作系统不同、应用软件不同。尽管存在这么多的不同,但是,我院的实施要求是一致的:必须确保业务系统运行的连续性,缩短停机时间,确保原有数据不丢失,方案的实施因此面临严峻考验。
项目实施前,通过与工程师就实施计划多次商讨,修改实施方案,尽可能缩短业务中断时间,保证数据安全。其中,方案实施面临的最大挑战还在于,应急恢复不仅需要支持本机恢复,还必须支持异机恢复,特别是跨平台远程网络启动,是整个应急系统的关键。
经过周密安排,在专业技术支持下,信核数据持续数据保护方案得以顺利实施。实施过程对每一个业务系统都进行了本机及异机应急响应测试,对各种故障情况进行了严格的分析,并给出了应急操作指导方案,使我院工程师快速掌握了系统的日常运维及应急操作,系统的各项运行指标达到了设计要求。
数据完整、恢复及时的应急演练
信核数据持续数据保护系统上线至今已有一年时间,为了检验系统的应急响应能力,在信核数据和中科软的配合下,我院于今年4月成功实施了在线业务系统灾难应急实战演练。
实战演练选择了PIS系统,通过人为干预造成PIS生产系统停机,业务中断。医院信息部门接到报警后,迅速对故障进行了分析,做出启用应急系统的决定。通过OSNSolution CDPServer上的备份数据,远程启动应急服务器,PIS系统即时恢复运行,业务运行恢复正常。应急系统运行24小时后,开启原PIS生产服务器,在应急系统支撑业务运行的同时,将应急系统数据恢复到原生产系统,恢复完成,关闭应急服务器。启用PIS原生产服务器,业务恢复到原生产运行系统上运行。
整个容灾演练过程,对我院在实际运行过程中可能遇到的情况都进行了细致而全面的测试,并由此验证,信核数据产品解决方案有效地保证了我院的业务连续性和数据安全性,所有测试内容均达到预期目标,测试结果非常成功,各项应急指标达到设计要求。
Abstract: At present, coal mine production safety situation is still grim. And the extensive application of information technology is to strengthen and improve the safety production of coal mine is the effective means to promote coal industry, the application of information technology have been crunch time. The Ministry of information industry of electronic information products management division and the promotion of system of countrywide electron Information Office in the promotion of coal industry information technology has done a lot of work, and takes it as the important work of national economy informatization. At the same time mine information to the information industry provides new opportunities for the development of information industry, transform traditional industry with the excellent. So this article on coal mines accident emergency management information system construction of.
Key words: coal mine; accident; emergency management; system construction
中图分类号:X752文献标识码: A文章编号:2095-2104(2012)01-0020-02
1.煤矿重大事故应急信息管理系统建设的必要性
近年来,我国公共安全形势严峻,突发公共事件屡有发生,不仅造成人民生命财产的巨大损失,而且还带来了一系列心理问题、社会矛盾和利益冲突,直接影响到社会稳定,危及到国家安全,也影响着整个国家的经济和社会发展的大局。这一系列突发公共事件考验着社会公众的承受能力,更考验着政府维护国家安全、社会稳定和公众利益的能力,以及履行政府的社会管理和公共服务职能的能力,使政府意识到自身应在建立国家应急体系和提高社会整体应急管理能力和效率方面承担起相应责任。从目前来看,政府最迫切要做的一项基础性工作就是应急信息系统建设。应急信息系统建设已是刻不容缓。
解决煤矿事故应急信息建设的最关键问题,就是构建一个煤矿重大事故应急信息管理系统。通过研究煤矿应急救援体系和开发急救援信息辅助系统,在安全信息资源开发利用技术方面进行深层次研究,探索一条为煤矿安全技术人员提供安全全方位服务、符合行业实际的信息服务方式,使煤矿能及时更新安全信息、降低安全管理成本,在发生事故时能及时做出反应,并采取相关措施,提高事故的救援效率,有效减少人员伤亡。
我国各地受各种条件的限制,想要一下子建立起一个完整的平台,不是很现实,即使建立了统一的平台,在实际使用中也很容易出现盲目和随意的问题,很难切实的组织起一个有效的管理机制。本课题结合国内现有的研究成果,以应急信息管理作为突破点,先从基础应急资源的管理入手,以地理信息 GIS 系统为支撑。
2.煤矿重大事故应急信息管理系统建设的国内外现状
2.1国内现状
目前,我国国有重点煤矿基本建立了煤矿安全生产信息管理系统,主要进行安全日常管理、灾害预防与处理、事故管理、矿山救护管理、事故统计分析、安全评估、人员信息管理、安全监测信息处理分析及安全教育与安全技术培训等。
从 2002 年开始,各地建立的安全监管局网站,承担着安全生产信息在网上的功能,为互联网用户提供了一个了解安全生产政策、法规和安全生产综合信息的电子网络信息平台。2007 年煤炭行业在视频会议系统方面的投入为 0.44 亿元。各集团公司通过 FTP、电子邮件等方式从管属的各煤矿业务处理系统中接受数据,建立本集团公司的煤矿安全评价管理信息系统。
重庆市开展了基于组件式GIS和GSM技术的重庆市煤矿应急救援指挥通信平台(CRCCS)的开发研制工作。该系统实现了省(市)级煤矿应急救援指挥体系的自动化、信息化。CRCCS 面向市、区县、煤矿(救护队)三级煤炭机构, 将事故监控与报警、地图动态查询与定位、救援指挥、安全生产及行业管理融为一体的综合安全生产与管理平台。由于系统基于 GIS 技术,因此,体现了良好的实效性和共享性。该平台的建设受地域影响和各地信息建设发展水平的限制,建立一个统一的平台还是有一定难度。
中国矿业大学王铃丁等人提出的煤矿应急救援指挥与管理信息系统,实现了对于煤矿事故的应急响应、救灾、预案演练和应急管理于一体的智能化系统,具有事故应急救援调度指挥、预案模拟演练和应急资源查询管理的功能。
吉林大学在 2008 年提出了煤矿事故应急信息系统的建设方案,依据现在国内采用的应急预案,我们可以运用计算机科学、信息管理与信息系统、办公自动化的理论和方法,再参照以往办公自动化系统建设的成功经验和失败教训,来建设煤矿事故应急信息系统的总体框架,其应至少由作业处理系统、应急管理系统和应急指挥系统等三个部分组成。其中,作业处理系统的任务是处理组织的业务、控制生产过程和支持办公事务,并更新有关的数据库。应急管理系统提供信息采集:1、信息表现 2、信息调度 3、通讯和物资资源调度等功能。应急指挥系统也称应急响应系统,是以计算机和空间数据库技术为基础,以 Internet 技术为纽带,基于 GIS 技术支持的煤矿安全信息共享与网络决策平台,实现了安全生产数据的动态管理与分析、通风隐患情况的自动报警等,在人和计算机交互的过程中帮助决策者探索应急的可能方案,为管理者提供应急所需的信息。
2.2国外现状
发达的煤炭生产大国的信息基础设施齐全、信息化程度高,信息资源的开发加工能力、国民信息意识及公众信息服务等方面都比其他国家高。英国的煤矿行业目前已成为世界上唯一的“零死亡”的国家。
3.应急信息管理体系的建设
3.1应急信息管理系统的概念
应急信息主要来自于应急管理部门、安委会成员单位其他委办局、企业和公众以及其它信息来源。通过建立统一的技术规范、数据标准、数据交换格式,制定相应的制度和管理办法,应急信息管理系统就是在应急管理部门形成一个整合的、标准化的数据仓库。
2.2煤矿重大事故应急信息管理系统
目前煤矿行业重大事故的应急救援体系主要是以应急信息为依托,当发生重大事故时,借助信息平台,指挥救援工作,根据事故性质决定是否启动预案,然后由指挥者根据预案中预先设定的救援措施实施救援,在救援过程中依靠先进的地理信息定位(GIS)系统对事件发生地点进行定位,并根据事故模拟分析系统分析事故可能造成的伤害,从而对救援工作进行辅助决策。当救援完成后,对各方面的数据实施统计分析,从而便于救援工作者总结救援工作中的经验教训。应急信息是整个救援工作的基础和主导,包括救援队伍信息、应急专家信息、知识库信息等。因此建设一个统一的应急信息管理平台,对于更好的辅助应急救援工作具有十分重要的意义。
参考文献:
[1] 李洺,王巍. 政府应急平台数据库的数据需求、实现路径与管理制度[J]. 电子政务,2008,(05) .