会议主题:证券行业灾备与业务连续性运营
会议时间:20091223 会议地点:赛迪大厦17层新知堂
会议嘉宾:
颜阳 中国民族证券信息技术部总经理
伏劲松 首创证券技术总监
王刚 昆腾中国区高级技术顾问
 
会议内容:
主持人:各位嘉宾下午好,欢迎来到我们“中国信息主管网CIO三人行”栏目。今天大家可能事先也都拿到了我们关于主题背景方面的介绍,这一期我们主要探讨的就是灾备与业务连续性运营这样一个主题,其实大家都知道,我还是先介绍一下,今天我们一共请来了三位嘉宾,是中国民族证券信息技术部总经理,颜阳先生;首创证券技术总监,伏劲松先生,昆腾中国区高级技术顾问,王刚先生。
今天我们主要探讨的话题就是想就我们证券行业的灾备这样一个主题进行探讨,大家都知道企业现在数据量越来越大,面对企业的运营的这个成本,还有信息安全各方面都提出了更高的要求,特别是银监会一系列的这种政策指引,也要求我们证券行业提升信息化的水平保护投资者的利益,那么我们今天主要就想把这个目标锁定在证券行业的灾备业务上,然后想从包括灾备系统的建设、管理,还有这种运营商的服务这几方面来对这个企业灾备进行一个探讨。
首先我们进入今天的第一个话题,就是我想先请教二位老总一个问题,我不知道两位所在的证券公司现在对灾备的投入是怎么样,因为灾备是一个,一直大家都所谓的说富人玩的游戏,因为灾备需要的成本很高,在现在持续金融危机背景下,企业又都非常重视这个成本控制,如何去建立一个既能够满足当前需求又能够在企业能够接受的灾备系统,不知道二位对这个有什么样的看法?
    颜阳:因为像灾备建设目前行业比较关注的一个话题,这里面可能从几个方面去考虑,一个看本身业务的需要,包括要保持大集中以后要保持业务的连续性,这是一个方面。另外一个还有一个相关的一些行业的一些标准,还有一个信息系统的灾难恢复的规范,领域还有监管部门的要求,几个方面来考虑。特别是资本公司来讲,建设一个灾备系统,灾备本来是一个对于用户来讲的话就像买保险,在这个灾备的预期来讲,在行业里面都在流传莫非定律,越是担心的事情越要发生,我们实际上没有那个资本去赌这个,所以说几个方面就使得资本公司对要求建设相关领域的灾备。这个灾备不同的公司有不同的做法,必须根据自己的业务对内部进行一些风险评估,看哪些是需要数据备份,哪些是需要业务的应用级的,然后制定出相关的规划,以及在建的设备过程中间怎么去做,它一定是一个完整的,而且是持续性的因为相关的像监管部门的要求,他也有一些比较细的对资本商的一些要求,你达不到这个标准,监管部门可能会有一些相关的处理措施,这一块也是专家委员在这方面也是非常权威的。所以说按照上一次在上交所新一代上交的时候,统计了一个券商目前券商来讲灾备的可能大多数都有了,异地灾备的话,这些异地灾备不是太多,这里的话可能还是刚才说到的,建立灾备投入和自己业务发展目标还有自己公司的情况关联度比较大,这一块一定是因地制宜的去做,我先到说这里。
 主持人:伏总你有什么看法,我们先聊一聊,我刚才听颜总谈话我了解,这个灾备是一个非常必要的事情,这是前提。比如说我们在灾备的成本控制,是说要起到最好的效果为主还是说会兼顾到成本的问题?
   伏劲松:这个问题,当时讨论员跟我打电话联系的时候,说这个主题的时候,我就想,像咱们这里,咱们就讨论灾备与业务连续性,但是很有意思咱们四个人都是做IT的,那这个东西到底是IT的工作还是业务工作,这里头就是这个问题,你灾备备的是深了,实际上我们解决的我们备的实际上是业务,不是备的数据,不是备的系统我备的是业务,你包括你后面那一块就是说业务连续性像你刚才也提到了,说灾备是一个富人游戏,富人游戏并不是说是一个富人游戏而是说现在市场竞争导致了市场竞争演化的,比如说客户对你的服务要求越来越高,对你的业务中断的容忍度越来越低,尤其像对我们这个行业的话容忍度几乎是没有容忍度的,行的业务中断他还有一个容忍度,我在这儿取不到钱,我可以说今天我不急着用钱无所谓了,但是对证券行业客户是没有容忍度的,就是你系统坏了,你业务断了,那好,我这个时候往往说行情在暴涨暴跌的时候你压力就大了,这个时候会发生系统故障当机,但这个系统故障当机是不是你灾难备份的内容之一,这个是要考虑的。因为我们现在说灾备灾备,到底什么是灾?我看网上有不少说把一些当机的东西都归在灾里头,但是有一些当机并不是灾的范围吧。美国“911”以后开始重视灾备,那因为他是面对了恐怖袭击,恐怖事件这种灾害,那真的我们就是说,我们把什么定义成灾,然后就考虑到怎么来建这个备。然后我们的业务连续性该怎么做,我觉得更多的在这里,而真不是技术上要讨论的问题,技术上讨论我想这是技术专家了,你会给出一系列的技术解决方案,包括RTO指标,RTO指标我都有,但是这个东西出来了以后,你业务的RTO是多少,你只能根据你系统的RTO,你业务的RTO,现在我相信没有一家能给这个答案的,我业务的RTO不知道,我把那个RTO哪怕十分钟都没有意义。
    主持人:那伏总你说哪些应该纳入我们证券的灾备范围里面去?
    伏劲松:这里头的问题又大了,这个事情是说包括我们现在做的建包,先有一些问题出来了,你做这个灾备也不是某一个企业的问题,而是最简单的你的通信网络,我是管不了的,通电系统我顶多靠买UPS,买发电机来支撑,有很多这些东西我也可能说把通讯项目这种故障,电力故障,主机故障我都归在灾里头我也可以把这些不归在灾里头,这是一个企业到底怎么来定,如果把这些都归在灾里头,灾的成本自然而然非常高,这个灾备你再谈,能不能真的运作起来,真的要打问号,对吧。我觉得可能有一些,我刚才听说有一些外企就是这样规定的,连关键岗位的人出差,如果都出差不允许坐同一班飞机,有些公司在灾备中心所有的家具文件柜摆放必须跟生产公司是一致的,我人到那儿我马上能工作起来,我该找的东西能找得到。
    主持人:伏总说了一个很实际的问题,其实灾备不一个简简单单的所谓的一个可以去界定的事情,那实际上这个也是我们第二方面想探讨的,我想请两位具体谈一谈,比如我们自己所做的证券公司你们的灾备系统是怎样选择的,怎样界定的,能不能给同行一个借鉴?
   伏劲松:我先说吧,刚才颜总先说的,我们做的灾备我们做的一个异地的,做的就是应对自然灾害这种事情,那其他的事情我不在我灾备里面考虑,我要应对自然灾害我的RTO时间是比较宽裕的,对吧。我就不要求那么高的RTO时间。
    颜阳:实际上反过来讲,也就是我确保我的数据安全。
    伏劲松:只要是我数据安全了就行了,我的RTO,我相信如果说咱们举个例子,如果说我计划在北京,北京发生自然灾害了,明天交易所能不交易,肯定要停市的。
 颜阳:没错,真发生自然灾害的时候,首先是在一定时间之内,你数据要安全,在一定时间之内你交易能开开。
   伏劲松:我能开,比如说我四个小时能开开,而且我们这个时间比这个时间要短得多得多。我们这儿建的也都建,而且我选的是异地,异地当时考虑的时候也一样,我异地不能异得太远了,所以我们灾备可能放在石家庄,北京到石家庄的距离两三百公里,作为一个自然灾害的隔离是基本上可以达到的,如果说我的人员过去的话,可能在两三个小时可以,发生自然灾害过去,交通道路都堵塞了,那我那头有一套系统摆在那儿也没有意义。
    主持人:您说的这个起码保证数据安全。
伏劲松:对,数据就是我们效果对客户的资产负责,我的这个数据我一定要保护好,不能损坏,不能丢失。
   主持人:事实上,按您的讲述,就是做了灾备也不能实现这个所谓的业务的连续性?
伏劲松:不是,业务的连续性,这是一个整体考虑的,因为现在我的灾备目标我是抗自然灾害,我防范的是自然灾害。
    颜阳:对,他这个自然灾害是要从业务连续性考虑的话,从技术上实现起来代价不一样花费完全不一样,比如说像我的数据灾备,他只要确保数据是安全的,前提是,数据是安全的话做的方式很多,有同步数据容灾,有异地数据容灾,但是对于用户考虑这个问题的时候,他只要确保我今天交易产生的数据确确实实在一定的时间之内就是被传输过去就OK了,如果你真的考虑应用记录在,比如说我今天这个系统今天到哪儿,你希望在一个小时之内就把它恢复回来的话,这时候就涉及到你这个问题是,应用如何切换,每一个IO之间的数据怎么来保证它是一致的,就是至少从数据角度来考虑,这个带宽来考虑就会是大的,我们就会发现这个带宽目前来讲的DWDM,或者说我说两百公里三百公里拉光纤,这种实际上在大户身上都会发现,但是在大量的中小型用户企业来讲,他承受不了这种高带宽的压力,所以我们就会发现,在这个真正的数据性容灾里面它的在卸系统,真的要起到容灾的话,大部分还是采用异步。
    伏劲松:我打断一下,刚才你说这个东西就是咱们真的太多从技术上想这个东西,要不然我说的这个事情,你在技术上你可以把这个东西设计得非常完美,咱不考虑投入的前提下,我可以把这个灾备系统做得非常好,但是你这个灾备系统能不能达到真正的作用。咱们还有一个话题,还有一个这一块考虑的,我们现在经常在考虑灾备怎么切,我灾备怎么切回来呢,可能很少人在设计灾备的时候说我灾备怎么切回来。
    颜阳:对,目前来讲是单向切换为主。
  伏劲松:对,我们也跟很多商家在谈这个问题,他说我怎么给你保证切到灾备,但是从灾备切过来他不管了。那时候我举一个很简单的例子我说你把灾备,咱们就说我们公司比较小,大一点的,你说建一个异地灾备从北京到上海,那可能切过去只有到周六周日你才敢往那边切,因为你的数据同步不回来。
    王刚:现在有的公司采取轮流轮换。
   伏劲松:对,这种轮流是把系统切过去是可以,但是你轮的是人员没有发生人格问题,你只是还备的是系统问题,系统别出故障,你只是把这个问题解决了,你发生自然灾害,战争、洪水那人员过不去。
   王刚:对,他这个就牵扯到灾备是计划性的停机还是故障性的停机。
 伏劲松:对,你计划性停机我的人还可以在这头做业务,我有项目在那儿,但是发生自然灾害你这一头人都做不了业务,所以有一种观念就是说建灾备没有意义,也有人这样说,这种意义可能来讲,就是你的人员这么做不了,除非你要灾备,我真的人员都备了,所有人员都在灾备中还有一套,而且这一个对业务熟练程度是完全一样的,你才能把整个业务接管过去,那可能在国际上大公司好办,因为他本身组织机构庞大,我到处建都有一摊人做这个事情,但是国内大多数,我觉得国内的企业都不可能做。
  颜阳:你像这一块,咱们公司到目前为止做的同城的灾备,因为我们主公司那时候是工商银行的数据中心里面,那是比较安全的一个场所,那么我们在金融街这边建了一个同城的,当时建这个中心也是出于几点的考虑,因为实际上我们讲到这个容灾,刚才大家也说到了,提到了有天灾人祸,这个就是系统的脆弱性,伏总也说了我们讲系统的脆弱性是广义的,因为不光是自身建的系统,还有包括周边运行环境的支撑,有一些周边环境的支撑不会以我们本身公司的意志为转移的,但是我们做的话尽量是把自己的系统建灾备一些,但是真的发生哪一种灾难的话,从系统脆弱这个角度来讲,本地的切换的可能性更快,而且发生的使用的机率也更高,即使是像同城灾备切换的话,如果是遇到所在主中心发生网络一些问题的话,可能要切换到灾备上面去用,所以一般来讲,这种同城灾备在现在使用上来讲,相对来说目前来讲也差不多。
    伏劲松:就是够用了。
  颜阳:对,因为我们还有一些其他用处用,总部也在用这边,共用这样一个机房,相当于投资的考虑,都利用起来,这样可以节省一些成本实际上这样一个过程中间,我们想建灾备的话,他还有一些很多的一些考虑,我们在你建早的过程中间,要考虑将来的恢复,恢复你平常的话还要考虑是不是可用,这个很重要的。包括现在行业里面也是在要求要做一些应急演练,因为我们现在演练说实在的都是属于计划性的,属于是属于意外的灾难出现以后的话,是不是能达到你计划这种效率那么高,还是应该考虑的。
    王刚:所以通过两位老总的了解,昆腾这两年在证据行业或者在保险行业,陆陆续续实际上也碰到了这些问题,那么基于同城的数据的灾备,目前来讲基本上每一个公司,基本上IT信息都已经建了或者说基本上都在做,从目前我们的感觉来看,包括我们给华夏给中银做他们的一些异地的数据性容灾,他们非常关心两点。第一点就是我基于比较低的带宽能不能把数据异地传输到别的城市去,比如说五百公里以外的一个城市,这第一个要求。第二个要求他们说我数据传过去了以后,到底能不能立刻提取,也就是刚才你们说的道理是一样的,我备过去的数据到底能不能恢复,我到底对这个数据的安全性有多了解,这两点是非常关心的,也就是说从2009年或者2008年底开始业界对保险也好,金融也好,这一些关键数据通过低带宽的网络如果把它搬到远程去,这个技术目前来讲基本上已经开始火起来了,也就是慢慢应用起来了,但是前提它是数据级的,他不是应用级的,也就是我只保护你的数据是安全的。
    主持人:我刚才听了两位老总的意见,我想再问一句,像我们自己在建这种模式的时候,你们大家有没有遇到过这种突然性事件或者说演练过程中遇到了什么情况,事后恢复的效果?
    颜阳:实际情况就是实际应用了。
    伏劲松:这一题我觉得应该咱们技术专家给我们说一下,你们做了这么多,应该碰到了更多一些。
   王刚:比如说有一些保险公司他们是这样子的明确要求两个月做一次演习,什么叫演习呢,也就是说把生产中心这边的数据就人为的造成一些数据的破坏,一些表数据删掉,一些数据就给它删掉,删掉以后,他的老总的老总就要下午三点钟来参观,你要把你的数据切到备份中心去你要确保我这个数据是不会丢掉的,这是他们经常碰到的。
   伏劲松:我想问一下,他这样一个备份方式应对的什么状况?
   王刚:类似于第一误操作,有一些人员就是不够,一个是误操作,第二个是本地磁盘有什么问题导致整个内的崩掉了,这是第二个问题,第三个问题它相当于有一些数据临时做了一些测试也是一种可能,也就是说这三个方面是他最关注的一个问题。
    伏劲松:咱们这样说了,你要解决这个问题,我全能拿本地方式处理掉,我面对这几个问题,我没必要放到异地处理,我在本地能处理掉。
    王刚:可以这么说,目前建异地系统的时候最主要还是这三个问题。
   伏劲松:比如说我们到底是备的是什么,我们要备的这三个问题我们完全不需要建异地的,这三个问题我们在本地就可以解决了,在本地在他的机房里就完全解决掉了。
    颜阳:不见得在一个城市里面的这种远距离的恢复。
    伏劲松:对,你完全能解决掉,而且解决的效果比那个好得多。
    王刚:最后一个问题就是他们说的所谓提出来原先法律上要求,对数据异地保存一份的动作,也就是说原先把数据异地保存到比如说磁碟也好,把它送到银行保管起来,顺便把这些事情给做了,也就是说现在不用做这个人工的动作了。
    伏劲松:我要拆开这样做的话我成本会低很多,我也能达到异地去保存,但是成本会下降可能是数量级的下降。
    王刚:但是从技术从智能性上面考虑的,2008年之前没有这个技术,异地之间真正传的时候带宽太高了,这个技术太复杂了到2009年的时候,这个技术应用就非常,十倍以上的数据缩减,基本上给这个网上你交给他自动就给你处理掉了,处理完了以后所有事情不用你人去操心了。
   伏劲松:那个成本要远比我在本地解决成本高得多。
  王刚:应该会好一些。
    伏劲松:高很多。
    主持人:伏总成本这个事情就考虑得比较靠前了。
    伏劲松:不是,我刚才说了我的观点,到底我备的是什么,备的灾,那种灾是你的操作不操作也好,你的磁盘毁坏也好这不是说灾备的范畴里的东西,我觉得这应该纳入到灾备的范畴里头,而是反在本地的容错或者数据安全里面来解决。
    主持人:我还有一个问题,想跟二位探讨一下,实际上我们在做这个灾备或者建数据库中心的时候,实际上它是一个高成本的事情,对于日常的这种利用,就是除了有灾备的功能以外,其他日常的利用。这个不知道两位实际工作中有哪些考虑吗,我听说过有的公司就是这样,他既做正常的业务又备份,这样的话就增加了数据中心的利用的这个价格或者说重复利用的效率,不知道二位在实际工作中有什么样的感触?
    伏劲松:这个其实现在可能整个行业都在很关注的,就是双活或者多活这种概念,双活多活的概念就是我建几个都是,我把冗余机制做得更大了,比如说我原先的冗余机制跟我现在的冗余机制我都在我机房里面分布性的,这种冗余都在处理业务一旦发生故障了可以相互接管,这个东西是非常好的一个想法,这儿就存在着应用架构要必须去符合这种方式,如果应用架构解决不了,我非常希望想做这样的,那所有的应用架构解决不了,你就没有办法,而且这可能又涉及到像第一带宽的数据传输这个时候是需要双向传输了,这个时候我要双向传输。
    主持人:您现在在石家庄的灾备中心仅仅就是一个数据备份?
    伏劲松:不是,就是一个灾备,不光是一个数据备份,包括我的应用系统在那儿都有,我的系统都有,要不然说我也是一个灾备异地灾备的按照这种方式去做的,就是我把话说得清楚,就是我跟异地灾备我防的是自然灾害,真发生自然灾害了那个系统能跑起来,我们业务未必能做得起来。
    颜阳:刚才说的异地应用当中各个公司或多或少在灾备上面都做了一些工作,像咱们公司刚才说了在建灾备的时候,实际上有一个共同点,就是咱们的日常办公也是应用这样一个网络,包括还有一些做网络交易的站点平常都是用,这样解决一些问题。当然还有一些工作也可以做的,因为他之间,跟我们系统这个跟架构设计有关系了,说系统都是差不多的情况下,它还可以做一些平常比如说主中心忙不过来的时候做一些测试的工作,做一些压力测试,各方面的都可以做一点。因为他在灾备系统做的话,环境的话,如果你架构设计差不多的话,你基本上可以替代你的主中心的,你测试的真实性就能够有保障,这一块各个公司或多或少都有一定利用的价值,而不是说大家真的灾备放在那儿用,他是不用的,真的是出了险情以后才去用的。
    主持人:您又说到一个点,这个测试功能可以放在灾备系统里面做,这个我倒也是有所耳闻,像我知道一些银行系统,他系统更新速度很快,他确实也存在一个备份的系统去做测试,这样的不影响他正常的业务的正常的开展。
    颜阳:但这里面还有一个问题,因为一般来讲你的备份系统测试以后,你在主系统还是得测,这样无形中要增加工作量了,有的情况还不如就在主中心来先做。
    王刚:对,在咱们国家的税务系统也碰到,基本上好多版本的应用,现在灾备系统做测试,测试完了以后主中心再审一下。
    主持人:王经理您这边有没有一些什么关于比如说这个备份的数据中心或者说这个系统如何有效利用这方面的经验或者是说案例可以跟大家分享?
    王刚:从资源利用上看,我们可能没有太多的也就是从应用角度考虑的话我们可能没有太多的数据,从数据级别考虑的话,从我们目前这么多介质的地方来看,一般来讲他们对数据提出来实际上是三份异地保存的需求,三份异地实际上就是来讲,我本地有一份数据保存,本地保存完了以后,一般异地保存过去以后,我们一般通过同城的灾备,同城或者异地的一个数据灾备的模式传过去,但是往往他们还有一个要求,就是数据传递到异地以后,真正来保管的时候,到底是放在一些设备上还是把它离线出来,我们看到的仅仅是这一点,也就是说数据真正出来保存,而对于应用级别来考虑的话,我们没有太多的数据从目前来看。
    主持人:今天正好跟王经理聊到这儿,我想问一下,你们现在在给,比如说证券行业用户做一些定制化的解决方案的时候,你们会首先会征求用户的哪些意见,哪些方面,你需要用户能够,怎么样去明确的表示他的这种需求,你们这边又是怎么去对应解决的?
    王刚:碰到挺多的,首先第一个就是高层有这个需求,也就是法律条文有这个需求,数据最好异地来保管,数据最好异地保管,关键数据最好异地保管,这是第一个问题。第二个问题,他们遇到这个需求的时候,对现有技术也就是现有生产设备商的技术,如何能达到这个要求,他们实际上是存在疑问的,这第二个问题。第三个问题,是数据保管,也就是数据异地传过去以后,到底对用户的主管人员来讲是不是透明的,也就是说我是不是数据传过去数据就在黑匣子放着,我也不知道它的安全性,我也不知道它的可靠性,到底能不能利用,我三不知的话他们也是不喜欢的,所以他们一般提出来的话这是三个最主要的要求,但是问题是,解决这个问题,实现这个数据关键数据异地保管,对用户来讲又是可视的,也就是说我保管过去以后,我希望今天下午数据保管成功了,我希望明天上午验证一下这个数据是不是保管成功了,或者我假设一下我数据出现问题了,我数据能找回来的,要很简捷很方便,总体解决这个问题的性价比要非常高,也就是说我现有的网络我现有生产网络,我现有的查询网络,就能拿来做数据的传输这实际上是前提,我不能说我为了解决这个问题,我专门拉一条光纤,这是非常麻烦的一件事,从目前来看,如何性价比很高的解决数据级的异地灾备是他们比较关心的问题。
    主持人:我想问一下两位老总,你们所在的公司你们的灾备系统是自己建的呢,还是从外面购买进来的,还是整个外包出去做的?不知道咱们这个是怎么实现的?
   颜阳:像我们那个系统还是自建,因为自建比较好,应用系统本身也是开发商做的,整个机房的规划,规划建设和做一些集成的话当然也有一些厂商的合作了,应该来讲总的还是属于自建。但是我们就系统整个搭建是自己建的,我们那个场所的话是用托管的方式,因为灾备的场所,有的是公司是自己的物业,我们是托管的深圳通的机房里面,这里面你比如说是这样的安全性还要高一些,你如果说是我们的主中心在工商银行的税务中心里面,如果是整个工商银行有问题的话,还是一个比较大的灾难了,这样提高本身环境的那种可靠性。
 主持人:伏总您这边呢?
   伏劲松:差不多。
  主持人:比如说和咱们项目合作的这些,比如说证券应用的这些服务商,你们肯定也有一些合作的,你们对他们一般会有什么样的要求和选择性,在选择方面,要求他们具备什么样的能力,或者说达到一个什么要求?
    颜阳:这个问题太大了,这个市场基本上是这样的,不是我要求的,而是他提供什么能力我们没得太多选择,为什么这样呢,那就是这样的,厂商来他对你的业务不熟,厂商的问题,所以他厂商给你企业解决方案就是在物理常量程度解决方案,只能说是数据级的,基本上框架和数据级,他给你提供这种解决方案应用厂商来他有他的解决方案,但是这两种解决方案,真的还很难去评价哪一个方案最好的,高出多少,因为我们也是去评价,后来发现,可能你这头是专家,我不知道你们这头有没有一个这两种解决方案的比较方式,评价方式。
    王刚:潜在模式来讲如果各厂家去推他的解决方案的时候,多多少少带着他自己的影子去的这是前提实际上来讲。那么应用解决方案集成商在做这种方案的时候,他实际上来讲,首先也抱着一个目的,我这个解决方案推出去对我成功的力度有多大,他也并不是说完全出于公平公正的角度我去考虑一定要用我这种解决方案就最适合你目前的状态,所以这方面实际上就显示出来三方的沟通是很重要的,一个厂家一个集成商还有一个最终用户,反过来再讲的话,最终用户再把他的需求如何更明确的反馈回来。
    伏劲松:作为需求来讲,我觉得我们的需求非常明确的,我觉得我们的需求是很明确的,我既然做这个不管是数据备份也好不管什么也好,我的需求,你两个方案,我刚才这个问题,你们有没有对,咱们就说这样的,做存储的人,他会把他的存储的灾备解决方案他会去专业评测去评哪些指标比较好,但是你是在你的同类解决方案里面做比较,但是跟在应用级做的方案呢,你这两个怎么去比较。
   王刚:我懂你的意思,从这方面来考虑,实际上来讲,在我们现有的交流的过程之中也碰到很多同样类似的问题,举个例子,都要做数据级的灾备,都要做数据级从这一城市复制到异地,有一些就说正列的复制软件来做,有些干脆说就不要用这个东西,就用一个数据库的复制软件也行,从昆腾角度来看,你这不就是数据吗,你干脆两方面应用层次都不用考虑,你只要把数据备份出来扔到我的盒子里,我自动给你弄过去,这又是我的一个角度考虑。
    颜阳:你从昆腾来讲我是解决盘和盘的部分,从数据库厂商来讲,我在数据库的逻辑层次上面来解决,从应用的角度讲我保证你的业务层次上的一致性。那这你就说,实际上你要说把这三种都做了,那成本就上去很多,这时候你的带宽就更恐怕了,这时候你的带宽就更可怕了。对于我们来讲,我可能三方面都保持一致,我觉得那是最好的,但是肯定不现实。
    王刚:一般我们碰到这个问题就是框架要搭好,但是可以逐步来完善一般都这个模式,就基层框架要搭好。
    伏劲松:所以框架搭好就先买你们的东西,搭框架就是先买你们的东西。
    王刚:框架搭好,以后慢慢完好。
    伏劲松:都是带一点厂商倾向的。
   王刚:基本上一般是这样子的。
    主持人:这里面刚才听伏总说的,有一个问题我请教跟讨论一下,就是刚才王总举了一个例子,我们给保险我公司围绕几个方面做了一个备份的方案,刚才伏总说备这样的不需要异地的同城就可以了,在这样几种情况下,应该是作为一个什么样的系统来处理这样的问题。听说有一家证券公司因为IBM的,有这个系统的补丁没打,导致了停了半小时,这是一种情况,因为系统的补丁导致系统的故障,另外还有一个上一次上交所上新一代的系统,另外一个就说我经常可会碰到的峰值很高的时候交易,在这几种情况下,因为我们通常碰到说有故障,再问一个问题刚才说的这几种情况,是不是都跟灾备有关的事情,还是说有些是通过其他手段解决的这样一个问题?
    颜阳:这一块实际跟前面讲的,容灾的还有几种类型,前面是天灾人祸,还有一个系统的脆弱问题,这个偏重于系统脆弱这一块,你如果是打补丁,打补丁的问题上,假如你发生在一个灾备系统里面他同样会出现这样一个问题,然后你如果就在本地的一个系统里面,像补丁策略做得比较好,在升级的时候这一块计划得比较好,他可能从某一种情况会降低发生这种概率但是不是完全说降低这种概率。
    伏劲松:有些事情不是灾备,只要是系统肯定要出问题,不是说靠灾备可以解决的。整个系统都是人做的,人做的咱就想到福气也好,有一个最简单的算法,可卖硬件厂商的人可能会卖可靠性,但是从来没有说卖软件的人卖可靠性的,卖软件的人卖功能他不卖可靠性,但是一个硬件没软件是没有任何意义的,这个软件在一跑,跑了系统软件咱们就说系统软件的复杂性又是存在,然后我加上我应用软件的复杂性,这三个东西放在一起,再加上所有东西这个可靠性到底有多高,没办法算的,那你要说拿理论的算法来讲。首先咱们就说,IBM你的操作系统你的可靠性指标能出来吗,估计他肯定不敢给。所以现在又有一种说法,又有一个指标又是厂家搞出来的,平均修复时间,厂家又搞出一个指标来,我可靠性没法给你比,我也算不出来,我再给你算平均可修复时间,但是这些事情还是有问题的,这个平均可修复时间。
    主持人:其实像刚才伏总说的双活中心多活中心,我觉得这个是不是可以有效的解决这个问题呢?
    伏劲松:你要有效的解决这个问题,你是完全两套机构了,实际上我觉得双活中心也未必,就像你刚才举一个例子,本来操作系统BUG了,你建这样两个东西,到时候出问题都出问题了,你就建完全异构的,这一套你在IBM架构上做,那一套我在惠普或者说因特尔的架构做,你要真做到灾备,所有问题都备了,就包括你的采集应用系统、操作系统、数据库全部是两套机构的,但是在技术上几乎是没有办法解决。
    主持人:就是完全异构的没有可能。
    伏劲松:咱们不说操作系统的BUG问题了,那你要说应用系统的BUG,你只要说他这里有一个BUG,你解决N个灾备你都解决不了这个问题,你都跑到他的系统。
    王刚:这是应用级灾备里面也存在一个问题,如果A误操作的数据完全可能影响到B,所以现在往往就是说在同城灾备做好以后,能不能对数据做备份级的灾备,就是写过去以后就不要改了,我以后找的时候还可以找回来,就这么一个动作。
    颜阳:你如果完全建异构的话,你人力成本就会加大,你知识储备你从两种系统你都要有一批有经验的人去做,因为这种有经验是一个积累。
    伏劲松:这个就是要提高所有人对,这个我觉得倒是,我觉得媒体该做的,就是所有人对这种设备的故障的容忍度,要提高这一个东西,我觉得现在计算机网络速度搞得越来越快,但是容忍度是越来越低,但是我们对其他行业的容忍度却很高。咱们就说容忍度很高,对现在反过来对IT的容忍度好像是为零了,好像你这个东西就不会出问题,没有这样的事情,哪有不出问题的东西。
  主持人:其实我觉得伏总说了一个观点,对灾备系统,我们不能认为它是万能的,应该认识到它在一些方面。
 伏劲松:哪个都不是万能的,灾备也好,不管你拿什么方案来讲,都是有问题的,这里我也是一直觉得,可能作为用户来讲,那我们会经常听厂商在谈这个问题,厂商绝不会主动告诉我这个系统,我这一套工具的缺陷在哪儿,那作为用户来讲,我是一个弱者在专业知识获取这儿,那真的这个信息完全不对称的,就像王总那一块,你后面庞大的技术人员支持你,我们这儿有什么,而且你们非常专业都做这一块,我们杂七杂八什么都要搞,我不可能那么专业。再说,如果告诉我一些这样的东西,可能会影响判断,最简单了你告诉我这个东西百分之百的,我要买我跟老板说这也是百分之百的,这不傻了吗,老板说好,你花钱建,比如说昆腾的产品如何如何好,我写一个报告给老板,昆腾的产品经过我们调研产品是最好的,买来之后昆腾的产品也会出问题吧,出了问题,老板说你说那是好的。实际上还有一个问题,IT有些事看得太超前了,没有意义,真的是那么有意义的吗,我觉得最简单的咱就说,可能最简单的就是说CPU做那么高的速度,为了解决这个问题,厂家又抛了一个云计算出来,否则的话CPU用不掉,他自己圆不了那个理论,你要那个CPU速度干什么,行,我搞云计算,他把这个圆掉了,他把CPU这一块资源用掉了。
    王刚:他叫资源再利用。
   伏劲松:我觉得这个行业很典型的,大多数用户都会很典型,他很多应用非常关键,但是对CPU要求不那么高,可能一个G的主频就跑得非常好了。
  主持人:伏总刚才说的产品的可用性,它的这个缺陷,你有一个什么样的看法?
   王刚:从现在来看,产品可用性从两方面,一个是安全性,说白了就是可靠性,可靠性目前来讲就是正列,经常宣传99.99%的可能性,就我基本上不会坏,但是你反过去问,你是不是真的可以跟我签一个合同,我放在你上面的数据就是不会丢的,谁也不会跟你干这个事情。反过来来讲,我们就会发现一个问题,伏总说得很对,可修复时间,你看每一个产品里面真正的一个指标,我承诺你30分钟内我可以给你把产品修复完,各个的厂家从目前来看,功能越来越丰富,他可靠性,可利用性,实际上来讲从硬件角度来讲,它是提高了,比如说冗余的分散,冗余的电源,冗余的控制器这方面都是想到了。那么从以后厂家角度来看,他必然还有一个层次,他把你真正的应用层次真正提供到你客户端那一边表现出来的设备层,他底下实际上是两套东西,我再给你虚拟化一层,真正虚拟化以后再提供用户用,也就是说在我厂家考虑我觉得在硬件级别提高到一种级别以后,我基本上可以做到这一层了,但是我为了更高的可能性,我再虚拟,再虚拟化一层,我底下实际上两套硬件在跑,你是不知道的,你是感觉不出来的,所以有这种倾向目前来看。但是硬件可靠性越来越完善,目前这是肯定的,冗余度增加了冗余度。
  主持人:我最近采访一个监管机构的负责人,IT负责人,他说应该在业内推广服务水平可用性协议,就是说我们IT能提供一个什么样的服务,也不能对他要求特别高,也不能特别低,我们用什么来衡量我们这个水平,服务可用性水平,我们在质量上有没有可能,就是考虑这样一个事情?
   颜阳:做这个事,实际上它有几个关键的因素在里面,就是看你服务厂商,他是不是有一个准入的一个门槛,实际上现在在行业里面本身依托行业里面的一些IT厂商,说白了有一些,对咱们用户来说有一个很大的依赖性,这是第一个,你还摆脱不了他。另外一个,这些厂商的话,还没有一个从哪方面制定一个门槛,没有这个门槛的话相关的法则实际上起不到太大的作用,因此就把,一个是刚才说的对于技术的非对称性,用户对券商来讲他要了解的东西太多了,所以说从纵向来讲他不可能了解得太深,所以说很多东西就是属于平易级,你如果撞上了,那没有办法,你排查的时候,非对称性的话你还找不到它真正的原因,还得靠厂商来解决。
    伏劲松:就是靠厂商,我们也碰到这个事,这个行业里有几家都碰到这个事情了,设备出故障了,厂商过来把日志拿过去最后没下文。
  颜阳:券商这一块实施交易性的及时性要求比较高,他一旦出了问题,比如说让他厂商去赔,他只能去赔,相关的一套的那些约束他是没有的,所以说对他的服务质量那个保证还是显得比较薄弱的,还有一些我们系统对他保证一些运行环境周边的一些支持,那也公司的厂商你也没有办法去约束他,所以就使得整个,比如说灾备也好,或者本身系统的符合性应用,还是有一定的问题。
    主持人:刚才谈到了一个,其实是对厂商的服务性,前几天我和其他的一个人说,他说我们缺的是没有一个让我们证明的时间,我不可能说我首先把你这个设备用了五年十年,你说你的设备十年不出问题,我不可能我用了十年以后用我自己去证明这个结论,这个情况下就存在一个,有点要拱一下的意思,我想多半在考虑的时候,肯定也会和一些IT的厂商经销商合作,你更看重的是这些厂商的哪些呢?是品牌还是说比如说同行的推荐?
    伏劲松:我觉得颜总可能大家都一样,包括我现在选择厂商我看重的是一个诚实,就是诚信的问题,就援引到刚才那个话了,厂商利用技术优势在有些东西他在做的时候,把一些问题,这种不诚实,因为我们真的碰到过太多太多这样的,包括IDC给我出现过这样的问题,后来证明是他出错了,包括硬件服务器厂商他把问题往我这上面推,然后我们最后所有东西拿出来证明是他的,最后他没有办法就只能认了。厂商经常利用他的技术优势,对于用户来讲压力非常大的,第一个因为我们企业因为我们是IT公司这种高水平的IT人员,他觉得在这种企业里可能作为IT来讲职业发展是受到局限性的,这样的话厂商有非常好的专业优势对一个问题他说什么问题,他说你这是什么什么问题,我们最后就说,我们拿出一系列的东西,专业的测试软件我们来测,测完结果是他们。要是我不做这项工作他就不承认,你说让我再去说针对这种服务来讲,让我去付费我掏的钱,你说我愿意掏吗,我享受的是这种服务,你肯定你也不愿意掏这个钱,你享受这种服务,就是在做技术支持服务这种诚信的问题,我倒不是说,真的不是说你承认你有错,我让你赔什么。
    颜阳:实际上现在这种服务,券商有的开始除了本身我在建造一个系统方面有一些,比如说服务器,在针对自己的应用也是追加了一些服务,为的是提高服务,跟你深层次的质量这种有一种保护,实际上就是属于增加更多一点投入买了更多一点安全,对于厂商来讲,实际上还是追求他的利润最大化,没有这个的话他自己都不能生存下去的话也无法谈到服务,所以这一块还是属于相互的。
    主持人:大环境要求,用户也是专家,大的环境决定的。那我们刚才说的提供服务水平,处在这种社会,我们是怎么建立,我们给用户提供的这种服务呢?
   王刚:两个层次了,第一首先是在使用之前提供给用户的设备是他需要的一个档次的设备,并不是说他非常低的需求就要给他推荐一个能耗,功耗非常好的产品,或者说他公司的人员所不能正常日常维护的这么一个很复杂的设备,这是前提。反过来就是进入真正的维保或者说服务流程了,这实际上在国内来讲是比较普遍的,厂家在国内无外乎就两种形式,一种是办事处形式,一种是公司形式,公司来讲一般都有他自己的真正的保修人员或者维保人员,昆腾在国内如果要提供这种档次的话,我们是通过服务代理认证的模式,也就是我在中国共有130个认证工程师,每个工程师都是通过国外真正培训上面服务的他所代表的并不是个体公司,而是代表的昆腾的服务部门,所以这样子来确保本地的备件库加上本地的认证工程师上门响应,根据用户的要求是4小时上门还是几小时上门,是这么保证的,如果从昆腾来考虑昆腾是做得比较专的公司,所以这些工程师来讲,至少对昆腾这方面产品的维保应该是能力比较大的。
    主持人:两位老总还有什么想要再交流一下的?由于时间关系我们一个小时的CIO三人行就暂时告一段落,会后大家如果有什么意见,也欢迎大家沟通,这个专题会后我们会把嘉宾的精彩观点通过网上的视频形式以及我们的EDM的形式推给广大的网友,也希望大家能够了解到这些内容。今天我们的CIO三人行就到这里结束,然后请各位嘉宾能一起合一个影。
评论
网友昵称:  



姓名 企/事业单位 职位 行业
颜阳 中国民族证券信息技术部 总经理 证券
伏劲松 首创证券 技术总监 证券
王刚 昆腾中国区 高级技术顾问 IT

从2008年底开始,保险、金融等行业,已经开始把一些关键数据通过低带宽的网络传输到远程的灾备系的,这个技术已经逐渐开始火起来了,但目前仍然只是数据级的,而不是应用级的。也就是说,只能保护数据是安全的,能否做到立即提取,这个还需要进一步去考量。
灾备建设是证劵行业比较关注的一个话题。这个问题可以从几个方面去考虑:一是本身业务的需要,包括大集中以后要保持业务的连续性;另一方面,是证券行业有一些行业的标准,比如信息系统的灾难恢复规范,此外还有监管部门的要求。
灾备建设的迫切性,和现在的市场竞争有重要的关系。客户对服务要求越来越高,对业务中断的容忍度越来越低,尤其是对证券行业,几乎是没有容忍度的。
更多>>
中国信息主管网  
CIO三人行栏目组
电话:010-88559770
Email:ciw_zhangjing@ccidmedia.com
观点交汇时刻
会前互相交流
聆听是最好的语言
主持人的提问让嘉宾产生共鸣
专注的力量
仔细思考对方的提问
公司介绍 - 关于CIO360 - 友情链接 - 广告服务 - 法律声明 - 联系我们 - 网站地图 - 管理入口    
北京赛迪传媒投资股份有限公司 版权所有 未经许可 请勿转载
Copyright © 2008 Beijing CCID Media Investments Co., LTD. All Rights Reserved.
京ICP备09005911号-1 京公网安备110108007146号
视频及多媒体网络活动由展视互动提供技术支持!