您现在的位置是:首页 > 数字化转型 >
杨昌达:HP法规遵从信息管理方案,让信息更快速
摘要现在面临整个信息社会来讲,信息是非常一个重要的手段也好,甚至于所谓的企业资产。怎么样能够让信息快速,这是我们的一个重点。因为事实上来讲,首先第一谈到什么是我拥有而竞争对手没有的?好比以古代来说,两军在交战的时候,事实上能够取得竞争对手第一顺序是最关键的,...
各位在座的来宾大家下午好!
下面我给大家介绍一下HP公司在针对信息规划里面的方法。我们都知道,现在面临整个信息社会来讲,信息是非常一个重要的手段也好,甚至于所谓的企业资产。怎么样能够让信息快速,这是我们的一个重点。因为事实上来讲,首先第一谈到什么是我拥有而竞争对手没有的?好比以古代来说,两军在交战的时候,事实上能够取得竞争对手第一顺序是最关键的,这就是竞争优势。比竞争对手能够更快拥有一些信息的话,你的竞争优势会更强,现在面临的问题是,包括各方面来讲,金融危机各种预算不断的下降,还有一个法规及其他的挑战会不断的增多,像刚才讲的在美国有塞班斯法案,在不确定的经济时代里面,这是我们看到的一个趋势,今天是一个什么样的情况,事实上来讲有人认为,整个经济条件在逐渐的转好,可是这是一个未知数,不过一个潜在性的问题依然存在,就是你的信息持续的爆增,因为各位没有因为危机而少收几封邮件,甚至会更多,包括以各种形式,邮件只是目前比较常见的,包括各位的QQ、其他的一些通讯工具,甚至在整个在收据上面都会造成信息,信息怎么样去获取,事实上来讲,刚才提到的,各种优势获取的话,必须信息转化成洞察力,包括来自世界各地的厂家。我们现在的社会里面,80%的数据包括企业产生的、个人产生的、服务器产生的、应用产生的,或者是笔记本、PC上产生的信息很多,占了整个信息数中的80%。20%是结构化的数据。其实事实上讲速度体现价值,你今天有很多资料,一个数据,你全部都用刻光盘的方式,可能有10张、20张,甚至100张光盘里面的数据很大,比不上你把这些数据存外接硬盘里面,因为速度不够快的话你保留下来的信息也有价值。
因为之前不重视一些法规对他的要求,保留一些电子证据,这些电子证据大部分像邮件、来往的一些文件,相关的一些东西,它被他的竞争对手告上了法庭,它有保留下所有的数据,可是他的数据是备份到次贷里面,定期倒到一个安全的地方仓库存放起来,实际上他没有办法体现竞争的价值,法官给他一个机会,因为谁也不晓得今天是谁输谁赢,两个礼拜之内你们把发生的相关电子证据全部呈上来,竞争对手很快就能拿出来这些证据,但是摩根史丹利他拿出来一堆磁带,摩根史丹利也是接受了一次教训,采用了的我们的信息归档平台,成为了各地应付这些法规的要求。
HP在信息数据管理的目标,今天重点给各位介绍怎么岗地业务的风险。首先业务风险来自那里,最显著的是这些法律,怎么样能够更快速的分类这些信息,因为来自不同的人、应用,产生的相关的一些数据,怎么样去管理,不是对方起来,不是找一个仓库堆起来,要对仓库里面的信息进行管理,管理能够快速的分类,还有快速的保存和发现信息,就是你要的信息随时都有,应付各种挑战。在对应到HP的解决方案,一些文档的记录管理,稳高性能信息归档管理。
花点时间我给大家介绍一下传统的备份和归档,过去做法是我做备份,首先定义一下部分备份是所有信息的拷贝,或者是快照技术,产生第二份的信息,目标是来恢复数据,当你的数据中心有问题的时候能够恢复原来的信息。归档,是把历史数据比较不常用,可是还有机会用到的抽离出去在线访问,它需要快速的访问,所以有些客户混淆了这个概念,他认为把备份的数据放在磁带里面,放到一个偏远的地方,他认为这是归档,但是他没办法快速的颤沼,备份和归档无法替代,是互为补充,可以保证数据在任何时刻的可用性,让你的信息永远在线查找一样。
这边提到现在的法规不断的增加,越来越多,各个国家,包括美国、日本、欧盟,甚至国内,越来越多在不同的行业所产生的这些法规,你怎么样去管理,作为CIO怎么样去管理这些信息,怎么样去查找,要在这里怎么找到未来的这些东西,所以我们面临的在治理和电子方面要降低风险,能够增加效率,还要有更低的成本。其实效率是非常重要的,你的信息保留下来是要非常快速的,你拿不到,你存起来、存放的数据是一堆垃圾,影响你整个企业的效率面对这些挑战。
这边提到中国的塞班斯法案出台,企业内部控制基本规范,2009年7月1好上市公司全部实施。所有的要保留7年以上,应付所有的回访检查,可能是年审各方面的。首先,第一要保留你的信息,保留下来之后要查找。所以国内的中国版的塞班斯法案,简单讲那个精神和美国的塞班斯法案很类似,也要求在国内的上市公司必须要符合这个法规的要求。刚刚提到在电子邮件面临的挑战,每18月翻部,而且还会产生新的邮件。刚才提到不仅要归档,还要在线查找和外部和内部审计。
而且,我们看一下过去传统的做法是由各个模块组成的,并不是说这种模块不好,而是它事实上很重要的,它不是存储,它必须要符合法律的法规。首先第一个你保留下来所谓的电子证据是不可被篡改的,如果你的信息、活动如果有门,不管是正门,还是后门,让有些人士作为篡改的边界的话就不是证据,当法官认为你拿出来的证据有被篡改的机会,法官是不认可的。所以HP的解决方案是整体的,包括搜索引擎、软件、硬件的集成方案,根据SEC的“规则澄清”,都有资格作为不能篡改的系统。所以你要提出来你的证据跟法官讲,我的东西绝对是不会被篡改的,就有一些相对应的机制符合。HP叫IAP,是基于网格云存储的技术,现在并不是这个技术热门而HP做这个需求,它的需求就像Google一样,网格体系结构才可满足各种规模的需求。经过统计和调查,所以后台来讲,就不能用传统的,Google也是,如果各位研究一下Google为的全球的搜索引擎是各自分散,这是各种的,我们叫存储节点、运算节点,把它分布式处理作为云存储,这才能满足的它的要求,传统的磁盘阵列,像数据库的短平快,可能每一笔的事务每秒能处理10万、100万秒,当你的数据库跟磁盘阵列要求访问数据的时候,磁盘阵列会缓存,各位想象一下,一些大型的企业,客户每天处理几十万封,超过上百万封的邮件,如果邮件收进来的时候,存放就是问题,如果拿传统的磁盘阵列来存的话,你要把它存到存储介质里面,你怎么办?因为这个数据量非常大,不可能用磁盘阵列,磁盘阵列来不及,所以要打散再处理,可能是信息就本身数据而言可以被分离,可以让很多的服务器同时去处理,这才符合处理的要求。一定要进来之后通过这个网关负载均衡到各个节点上去,保证后面作为一个搜索引擎的节点应用。刚刚提到带第一代单序列的搜索引擎的方式来讲,就是一台服务器、软件、然后做这样的一个搜索方式,本身的限制在20分钟以上。如果说你的信息非常及时,急得不得了,CEO马上要做决策,你马上把这些信息找出来,那就不是他和你想要的结果。第二代是分布式搜索引擎,因为它够快。我们的集成存档平台,因为大部分现实里的数据是这样的,统一存放在这个平台里面,而这个平台里面本身来讲,有一些数字签字、加密,所以一进来就是一个堡垒,你可以跟法官提,HP做的这个产品里面的信息是没有被篡改过的,可以作为呈堂证供,你拿出的是一些没有被篡改的东西。
接下来除了像邮件接受方式之外,还有其他一些行业需要长期保存的信息需求,过去主要是针对医疗生命科学行业,在十年、20年会产生大量的影像,HP的归档技术逐渐扩大到其他的领域,我们未来会把MAS把M改成海量数据的解决方案。我们看一下需求,各种不同的行业,常见的行业像医疗、数字媒体、生命科学产生的信息量是非常大的。我举一个例子,过去在医疗里面看到的是X光片等,过去因为仪器的精度没有那么高,过去还不会一下子爆增。今天我们看到面对这些挑战保留期至少要30年,上百年、数百年,甚至永远。各位想想这么大的数据量你怎么做。还有大文件,过去可能一个图片大概就是几K、几G,当一个断层扫描越来越大,怎么处理这个大文件,处理大文件就会有问题,目前的网络带宽,跨区域的网络带宽还不足以应付这些,要采取一些特殊的手段(后面会介绍),当这些稳当的数量越来越多、单一文件越来越大的时候,你怎么样处理它。我先讲一下,过去我们的医疗行业有各种不同的应用,就是着一个通用存储,可能比较贵,一些磁盘阵列性能比较好,存放着一年之后的数据就放到其他地方,100年之后就会消除掉。这个图看起来很顺,当你的文件存储到这儿以后,再迁移出来是一个很大的工程,不是很简单的拷贝而已,相关联性、前端的应用怎么办,是不是拷过去就删掉,不是那么容易的。所以HP针对长期多层分级的归档存储,针对数量非常大的、内容固定的文件,一旦产生基本上不会变,当各位,你去看病的医院帮你保留数据,下一次中间可以被篡改一些相关的病例历史,你允许这些做吗,肯定不可以。所以要数据签字,不是找一个地方存出来,这个地方尤其是现在医疗官司、医疗纠纷越来越多的时候,怎么样去避免这些篡改的机会。
如果说今天要进行分布式的共享信息的时候,怎么去做,我给大家讲,刚刚提到的一个文件10G、20G这么大的文件怎么传,比如成都的医疗没那么发达,跟北京要做远程医疗,你的带宽够不够呢,留恋流媒体的方式,就像我们在网上看电影一样,就是把单一的文件拆分成小的方块,用流媒体文件的方式传过去,这个在不同地方都可以看到。因为还有网络传输并不是很安全的,你运气好20分钟、30分钟传过去,如果运气不好中间会断掉,要不断的重复这个事情,所以在远程必须要共享这些大文件的时候,就要处理,就是流化。这里大概简单介绍一下,跟单纯存储为什么要选择HP的流存储,用是通用存储,没有专署接口的问题。
存储系统独立,避免硬件锁定、成本与内容价值一致,采用新技术。请大家简单的看一下GRID,访问方式和接口就是一个简单的文件方式,然后透明访问,能够做索引,能够去驱动、验证,然后根据信息生命周期的管理规则,我去创造这些所谓的属性,传统的文件属性并没有这样的一个属性,就是我们配合实际、结合实际、归档的需求,创造的这些属性能够更符合各种不同应用的要求。文件检索,刚才提到的,这个是标准接口,不是HP自创的,除了HP都没有,不是。当然我们可以自动做负载平衡考虑位置,介质和工作负荷。刚才提到的是基于流媒体的方式,甚至中间进行加密保护,这也是必须要有的。做一些优化,还有自动故障恢复,这个很重要,为什么要提到这个功能,事实上来讲,我们现在面临的情况是,通用的、传统的文件系统,会出现一个逻辑的错误,这是什么概念,各位如果说在各位的电脑、笔记本、PC上,有可能开机的时候给你一个提示,要检查恢复,他认为修复出来的是OK,没有问题的,可能一张图就变成马赛克了,文件大小修出来是一样的,因为这种原因、软问题,不知道这个东西到底是修复完了,所以他没有参照物参照。就拿医疗行业来讲,如果今天的X光片在发生错误之前是好的,经过这些错误之后发现在肺部有一个阴影,会到底怪谁呢,所以要多份拷贝去修复,当两份以上的数据,当一份有问题的时候会选好的参照,就是让你存储介质里面的数据是万无一失的。自动恢复的过程就是在后台自动来处理。前端的应用感觉不到它发生这种事情,所有的都在存储曾完成。包括你新的介质加进来,比如旧的磁带库或者是光盘库存要淘汰,换成新的,信息的迁移。怎么做存储找出来,然后复制,在整个过程当中都会有一些后台检查的加密相关的,确保这些数据安全没问题。因为过去做,当磁盘满了才会想到做迁移的动作,这种管理不可能每天盯着影盘空间有多少。 怎么处理网络终端:副本将自动根据平衡。
将完了这个之后,除了非数据结构化以外,数据库也很重要,刚才提到的哪些原因就占20%,这20%永远是最关键的。大部分数据库是出现这种状态,就是说今天的数据越堆越多,当初设计考虑的不是很周全,今天设计五年的用量,可能一年半、二年就满了,不断的买CPU、买存储,事实上治表不治本,各方面没有发挥最大的用处,其实就是这个数据太多拖垮了。每次开机的时候要准备这么大的处理能力、存储空间让流去跑,可能这100万只有10万比是常用的,剩下的90万只是偶尔翁到,这时候就把这些90万笔数据,从生产系统玻璃出来,放在另外一个活的实例上面,他所具备的不需要跟生产同样的配置,配置低一些就可以。这里我把所谓的生产数据库,比如10万笔数据是经常用的,叫活跃数据,非活跃的数据还是放在二级存储,更长一点,就是以Excel来存储就好了。
今天整个平台上会先根据你的应用去做检查、去分析,哪些应用和数据是可以剥离的,现在很多客户的做法是,也知道这个数据累积对他所造成的影响,最不得以的方式是把数据库的表打出来,然后存在硬盘或者是移动硬盘里面,听起来很合理,可是大家都知道,数据库的表与表都有关联,如果删除会造成一些数据的丢失和错误,并不是所有的数据都能这么划分和操作的,时间不只当做今天做归档的依据,还有一些条件,所以必须做应用的分析,我们创建活归档。上面做了一个应用透明层,就是前端的应用数据部需要修改。所以有些客户的应用,有些应用里面还是有所谓归档的一些机制,可是他定期要修改源代码,如果说各位客户应用,当初的开发应用厂商不知道了,所以要做一些应用的透明访问,事实上来讲,我们能够创造所谓应用透明访问,这样的对前端的应用、客户端应用是最少,我们还提供开放存档模块,让这些更长久的数据,比如说20年以上、30年以上做一个标准的,这时候各种查询机制就能够来用。
那么各位会想到,如果抽离出来,如果今天是异动,如果30年后发现怎么样办,就会自动拉回来,所有的移动在主控里面。看一下把活动数据和不活动的数据,随着时间的推移会产生这些不活动的数据,随着我们的访问会产生加载,一般都在后台进行,生产库、前端应用完全统一。
这边大概是列一下在我们整个归档解决方案里面的客户,在国内一些大型客户和国外的一些客户。实际上在HP整个信息的解决方案,不是昨天才创造的,是一个很长久的历史成熟的解决方案。
今天就介绍到这儿,看各位有什么问题。
(本文不涉密)
责任编辑:
上一篇:洞察后危机时代转型契机