您现在的位置是:首页 > 数字化转型 >

杭州信核董唯元:数据中心存储建设C计划

2014-04-14 09:05:00作者:来源:

摘要由中国计算机报主办的“2014年中国数据中心大会”于4月10日在北京新世纪饭店隆重举行,本次大会的主题是“能效为先 管理为重”。以下是杭州信核数据科技有限公司副总裁董唯元发表的题目为《数据中心存储建设C计划》的主题演讲。...

  由中国计算机报主办的“2014年中国数据中心大会”于4月10日在北京新世纪饭店隆重举行,本次大会的主题是“能效为先 管理为重”。以下是杭州信核数据科技有限公司副总裁董唯元发表的题目为《数据中心存储建设C计划》的主题演讲。

  董唯元:首先谢谢大家的时间,可能今天会议的主要内容都在围绕一些基础子展开,可能大家听了很多PUE这样的词,但是我下面报告的内容可能偏软性一点,因为我们是一个软件公司,我们做的更多是功能方面的考虑。当然也是数据中心的建设。

  这个题目叫“C计划”,可能听上去比较奇怪,我后面的演讲内容会叫这个名字解释给大家听,其实在现在的数据中心已经有A计划、B计划,我们是希望整个把数据中心建设的整个建设逻辑能带出一个新的思维模式。

  首先在新的云计算也好、大数据也好,一个新的大背景下,很多系统建设习会面临新的问题,最简单我们知道IT的硬件更新、软件的更新速度都是非常快,任何一款型号的硬件生命周期大概有三年的时间,如果我们今天建设一个数据中心建设周期就有五年,可以想象一下你在没有建设没有验收的时候,这里面有大部分的设备都已经过时了,或者是过保了,我们一个长时间持续建设一个数据中心如何面对这些一些问题实际是新的年代新的问题。

  传统的应用建设模式,尤其是企业里面的IT系统的建设模式,一定是以应用为出发点的。我今天一个企业要上一个ERP系统这是一个目标,针对ERP系统决定额什么数据库、什么网络、什么操作系统、什么主机,是自上而下的一个纵向模式,但是这个系统达到一个复杂度以后,一个数据中心本身就是若干个信息孤立的系统,比如像公安,我曾经跟一些公安系统里面的CIO去聊,他们的系统要做横向打通,实际上公安系统我们查下来应用比较上规模大大小小也19个,就像网上追逃、指纹库等的,这19个并不包括新的系统,还在不断的上新的系统,比如现在警察出去要带一个执勤的记录仪,回来之后要实时的录回到系统里面,这样一个个建立起来的孤立的系统它们之间的信息交互越来越成为问题。

  总之,我刚才讲了这么多,我们今天数据中心的建设,因为是云计算,我经常举的例子是一个集中发电的模式,不像原来那样每家自己也发电机,现在以建集中发电厂,整个建设逻辑一定有很多新的挑战,这里面一个最大的问题,尤其对IT系统最大的是不停的变化,尤其在纤细这个阶段建云计算中心的,包括建智慧城市、各种医疗云、政务云等等一些系统,很多系统在上线之初其实并不能够特别明确将来的应用点在什么地方,这种变化就是在建设系统开工建设第一时刻就一直存在着。

  我下面要讲C计划,之前的A计划、B计划是什么?A计划是最传统的建设模式,我们要建一个存储模式,后端的如何解决,着一些厂商,如果系统大就买大设备,像云计算数据中心这么超大规模的企业就买最顶端的设备,实际上你会发现真正这个世界上做云计算也好、超大规模数据中心也好,做到一定规模之后不可以以来BOX模式,这种模式就决定了结构扩展性非常差、弹性非常差,最大特点是不可能变化的,比如说三年之后技术落实、技术变化了要把整个设备换掉,这个更换成本实在太高,而且这个设备本身非常依赖原厂商的维护,如果原厂商支持服务策略有什么变化,就算他没有什么变化,后续支持服务成本用户在他们面前是没有任何溢价能力的。我们数据中心每容量的成本比一般的系统要高3倍以上。

  B计划其实就是这个世界做最早云计算的先锋们的,像亚马逊、Google他们做超大规模的是不可能用BOX模式的,他们更多是用开源的文件系统,自己维护、自己搭建后端的存储系统,Google的逻辑我这个门户我需要的东西自己做,只要有容量、有盘就行,至于容错、性能、可靠性所有的事情都有我自己的系统来保证。这个路线确实在亚马逊、Google、国内的阿里云都是这样走的,更多用开源的系统来搭建的这个数据中心。这里面分布式文件系统是一个最核心的部分,可能比较有名的就是hadoop文件系统,像Google有一个Google的FX,淘宝其实也开发了自己一个淘宝云系统,很多的超大规模系统、云计算都是自己开发、自己维护的系统。这种系统似乎给我们指明了一个方向,今天很多似乎在选择B计划,其实最大的问题就是维护复杂度,亚马逊能够支撑43万hadoop节点的系统,是因为他有1000个以上专职维护人员,而且我们开玩笑说那1000个都是博士后,他给用户的承诺是可用性是99.96%,每年总宕机时间不超过4个小时,即便有1000个博士后维护亚马逊的在线系统,其实真正每年的时间也是超过20个小时,完全达不到,别说四个9,三个9带一个6都达不到,这种开源系统真正对技术维护能力的要求是非常高,我们作为国内想建智慧城市、医疗云、教育云、智慧云云系统的用户也好可以自己考虑一下,我们自己是不是有这样的技术维护能力,能不能基于开源的系统为自己量身定做去打造自己的云计算系统里面的存储系统。

  我们再仔细看这件事,用开源的文件系统、分布式文件系统来做大型的、定型的存储系统真正要核心的一些问题,有一些对象化的问题,超大型的存储系统都需要在文件层跟块层之间有一些对象层,这是一个比较专业的术语。总体来讲,要考虑很多原来可能不需要考虑的问题,比如说一个文件系统里面起的名字、用的26个字母如果所有的组合都用过怎么办,这在超大规模系统里面是可能出现的。还有顶层容错的考虑,而且这个故障率,如果把数据均摊在系统里面的,如果有一排小磁盘阵列,如果有100排磁盘阵列一起来使用,我告诉你这个数据能够读出来的概率只有36%,也就是你有2/3的机会是读不出来这个数据。虽然每一个硬件的故障率只有1%。所以我们知道在这种大规模的系统里面一定要有多层的数据容错的技术。

  现有的文件靠开源文件系统加上自身订制有些可以解决比较好,偏上层的部分,偏下层是解决不那么好的,而且我们能够看得出来,这个领域对用户来讲实际上很难选择,现在可供用户选择的开源文件系统有很多很多,每一个文件系统你说它好都有理由,都支撑着一个或者是几个在线系统,如果说它缺陷问题,一定是有。不然就不需要那么庞大的队伍,那么专业的人员去维护它,而且它还会经常宕机。真正把开源系统商业化好,我把一个东西做好卖给你就去用,我敢保证这个系统在我的可控范围之内,真正商用化的文件系统并不多,基本上只有二三个,排到第三个基本上已经是很小的厂商了,大家可能都没有听说过。

  我这里要说信核的C计划,既然A计划有问题、B计划也有问题,信核的理念,或者是信核这种解决方案的核心目标是什么呢?我并不是期望着像分布式文件系统去解决所有问题,我只在块级、指令这个层面把问题解决清楚,同时为前端的应用提供一个跟原来传统硬盘、传统磁盘阵列一模一样的接口。当然你如果是已经有新型的分布式文件系统还是可以我使用到我这个基础,只不过原来的文件过多的负载、过多的容错能力就不需要的,只需要使用它本身的特性就行。这就是信核所能够解决的所有的问题。

  做一个对比可以看一下(详见PPT),分布式文件系统可以解决什么,信核可以解决什么,对比刚才的由分布式文件系统搭建的存储系统,我这个新的模式有一个最大的好处,我可以更多的兼容传统的应用,因为如果你用新的分布式文件系统海量存储系统,上面所有的应用对数据的交换都要做重新处理,最起码Orcale想用裸设备都使用不了了,它是能够提供一个从老到新一个平滑的兼容。达到一个效果,就是中间资源的调度,以及所有的底层的性能保证和数据保护这些事情都交给我来做,文件系统重新回到文件系统来做。

  后面是我把中间这一层垫起来我能够起到的左右,最基础我可以把所有的资源统一抽象、统一标准化,如果今天我们搭建一个数据中心,今天的数据中心不用担心建设周期太长,建设中间一些设备过保,或者是更换等等,因为这个系统里面所有都是标准化,都看作是一个资源,仅仅是一个资源,今天你用的是一个很古老的盘,明天换一个固体盘,如果资源在我这儿都已经被抽象成统一的东西,我提交给应用,底层的更换对应用是没有任何影响的。这种抽象是在我这里有一个池化的概念,这个池化的概念不仅是能够把底层的存储设备、磁盘阵列可以做到很细颗粒自由的分度和自由的管理。达到一个效果就是我在计算跟存储资源中间搭建了这样一个抽象层,这个抽象层就是我的价值和作用所在。我能够在一个透明的地方,在一个指令层面透明的把我嵌进去,嵌进去以后应用的模式都不变,一个最大的好处我透明这个层面使你前端的资源重新应用、重新部署和设备的更新都完全的脱离开,大家都可以自由的进行。整个云计算数据中心建设可以分层建设,第一上来可以把需要的资源部署清楚,至于将来需要什么,完全可以之后在定,而且在部署资源的过程中,可以部署一部分、上线一部分,在不影响上线的基础上,在原有的架构内进行扩充,或者是独立新的系统,这都是完全支持的。这是在我虚拟层存在的前提下,所有原本会停机带来的关联影响的事情都会被消除掉。

  这张图是我在网上借鉴的,不是我们原创的,但是可以体现我们技术在数据中心起到的价值,如果按照传统的模式建立的数据中心,它里边相互之间的纠缠关系实在太多,牵一发而动全身的事情实在太多,但是用我们的存储细腻化去搭建中间的系统,整个系统将会变得非常症结,资源的调整度可以强很多。

  后面是一些比较具体的功能展示,我可以给大家看一下带动画效果,由我存在之后,我是中间这个存储网关,这个存储网关存在之后,后端所有的静态存储资源就会动态的分配到前端,随着应用的使用,我可以把用得少的再吸收掉一些实际的空间,当然不会影响他的应用,应用还是在线,应用比较多的地方我再去在线把这个资源给他补充上。这样达到一个效果就是在不停机的情况下用很少的容量资源去满足比较大需求的一个空间的需求。我们数据中心前端布置一个根据应用部署去应用分配,后端补助磁盘阵列和需求,这两件事彻底被分离掉。

  另外我们可以做在线的嵌入,这是在全世界独有的计划,在不停机的情况把我们的虚拟化嵌入到我们传统的虚拟化当中去,达到的效果是可以在线更换所有后端的存储设备、数据源是完整的端到端的灵活性,整个系统可以做在线调整。像自动分层技术不是我自己独有的,现在很多存储厂商都有,我们可以做到横跨所有品牌、所有技术,我后端可以接很多其他的技术,不管是固态技术,还是廉价的存储技术,被我统一管理以后做一个统一的自动分层、热点迁移,这样达到一个效果存储系统整体性能得到提升,你只需要一点点钱买一点高性能的存储系统就可以了。

  内部的一些容错机制,其实就是借鉴文件系统的多拷贝机制,当设备写入到后端容错池的时候是多写入的,当一个故障的时候这个数据是存在的,当数据的冗余度没有了,我不会找原来的,我可以根据现有资源去恢复冗余度的动作,达到的效果我整个所管理的后端,一百台故障是1%的设备,它们中间任何一个设备随便坏,坏了可以拿走,在其他地方还有他的冗余,当磁盘阵列换好以后把它再搬回来就可以,自身也是有一定的冗余度。

  我的网格存储其实就是一个存储空间聚合技术,可以在一个大的系统里面去聚合所有的零散空间,给所有的主机去使用它。

  后面是数据保护的一些东西,因为整个数据的IO是通过我,相当于这个数据装进我的篮子里,我要保证第一我的篮子不破,第二是数据不丢。同时我还有本地或者是远程的数据同步技术,可以本地的高可用,也可以远程的容灾。

  由于时间关系就不细介绍了,我们这个公司虽然成立只有8年时间,但是我们核心技术、核心团队存在这个行业已经有19年的时间,这是业界最久的一个公司。如果大家想对虚拟存储化有更细的了解可以到我们的展台去了解更详细的内容。

  接下来的时间交给大会主持。谢谢!


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们