您现在的位置是:首页 > 数字化转型 >
卢东明:深挖掘、速决策、促转型
摘要危机这个词在我们中国已经不知道有多少年的历史。但是,过去这十年,可能我们听到很多从欧美真正去破解这个词说危机这个词实际上第一个词是危,后面一个词是机。他们才会发现中国人多么聪明,几千年前就造了这样一个词。...
各位早上好!今天很高兴能够参加2009第二届中国信息主管年会。
谈到后危机时代,其实危机这个词在我们中国已经不知道有多少年的历史。但是,过去这十几年,我们开始听到很多从欧美的角度去破解这个词说Crisis(危机)这个词实际上第一个词是危险,后面一个词是机会。他们才会发现中国人多么聪明,几千年前就造了这样一个词。
现在中国企业在后危机时代,要如何抓住机遇,如何把“危”转变成“机”,这是很多CIO面临的问题,也是很多企业面临的问题。谈到信息化,不知道大家以前看没看过这个图,如果我们这个圆说成全世界所有的信息,所有的知识,或者说这个圆是每一个企业的所有信息,如果说“你知道你知道的”,其实只占很小的一部分。更大的一部分是“你知道你不知道的”和“你不知道你不知道的”。“你知道你知道的”像什么?我们举一个农村的例子,现在农村生产出来东西以后要到县城里去卖,原来都是肩扛着或者推着小车过去,这是我们知道的手段。我们要把这个东西卖到县城里面,我们要推着车,或者赶着牛车过去,这是我们知道的。而“我们知道我们不知道的” 可能是别人已经开汽车过去了,我们没有,但是我知道别人有开汽车过去,我们知道只要有了钱或者其他的设施以后,我们可能也会修条路,有一天也可以开汽车过去。那么更多的,其实是“你不知道你不知道的”。你根本不知道有飞机的情况下,永远不会想到说生产出来的产品会有一天卖到北京,会从乡村里一直卖到美国去。对于每一个企业来说也是这样,你知道你知道的,我要问在座的CIO,你知道不知道今年的营业额或者业绩,你肯定是知道的。但是,我要问你说,你知道不知道你的业绩跟过去五年同期相比是一个什么样的情况,你说“我拍脑袋,我不知道,但我能算出来”。但是,如果我问你说怎么样让你的业绩在明年进一步提高15-20%?或者说你知道不知道为什么你的用户群里面,昨天有300个人离开了你们企业,不再用你的服务。未来会有多少人离开,或者会有多少人加入,是加入的人更多,还是离开的人更多。你怎么让加入的人多于离开的。这些就可能是“你不知道你不知道的”,世界中的事物太复杂,我们并不知道它们之间的联系是什么。但是,我们有一个共同的信念就是我们做CIO,大家都知道,信息是非常重要的环节,非常重要的武器。
刚才张研究员和罗院长分别提到了危机时代,我觉得很有一种英雄所见略同的感觉。就是在过去的时间里面,其实我们看到过去世界强国变迁的历史,从一世纪一直到现在,你会看到过去印度其实蛮强大的。这张图是按照每一个时代GDP所占比重来观察全球哪一个国家是真正最垄断的强国。我们可以看到一世纪的时候,印度和中国非常强大,慢慢的中国有辉煌的一段,印度也有辉煌的一段。再往后,英国在十九世纪突然爆发,然后又逐渐地在100年到200年之间被美国取代。现在我们从最后一栏里看到,中国现在在过去的十年、二十年、三十年里面取得了高速发展,似乎正在酝酿着新的机会。每一次危机的变化,或者每一次强国强权的转变、交替,都有着技术上的突破。刚才说到你知道你知道的,你知道你不知道的,你不知道你不知道的,其实真正的突破发生在你不知道你不知道里面。你一旦在这里面获取了不知道变成知道的时候,机会就发生了。飞机诞生了,就产生了航空业,人们的出行手段和交通模式完全发生了改变。
如果说英国是工业革命的时代,从1765年瓦特发明蒸汽机,到后来的纺织业,陆续实现了机械上的效率提高,以及煤矿开采、钢铁业、司法、金融业等等,造就了英国的时代,所谓的日不落帝国,靠这么一个岛国的力量,占领了世界。
美国的时代是电气和电子化的时代。从1876年标志性的事件,贝尔推出了电话机,到后来福特的汽车。美国的发展对现代人来说都耳熟能详,美国的教育制度、美国的法律制度、民主制度等等,都造就了现在美国的高速发展,包括华尔街的金融业。
美国在二十世纪九十年代,它的工业重心有非常微妙的转型。也就是说,它把很多低端制造业环节放到国外,放到了亚洲,自己还保留着高端。最突出的特点是蓬勃发展的IT行业,从硅谷的诞生到后来这几十年的蓬勃发展,有很大的关系。
二十一世纪将是什么样的时代?所有人都说二十一世纪是中国的时代或者是中国人的时代。在座各位也一定不会否认二十一世纪是信息科技的时代。信息科技的发展给二十一世纪的企业带来了从未想过的手段,目的其实就是要去了解“你知道你不知道的”和“你不知道你不知道的”。但是,这个问题也会面对非常严峻的挑战。比如刚才我们提到危机,我们举历史上华尔街遇到的三次最大的金融危机。2008年,这是刚刚过去,记忆犹新的。1987年美国的股灾,还有1929年经济大萧条。这三次危机,如果我现在是一个投资人,我面临这样一个问题,危机后三个月,我们看一下这三次三个月后的曲线,惊人的相似。如果我现在处于危机后三个月的点上,我是应该买,还是应该卖,是应该增投,还是应该减持?有人能够告诉我吗?这是我们做CIO的一定会面临的问题。6个月以后,1987年这条绿色的线基本上不仅打稳,还开始往上走,显露出一些新的趋势。但是,如果按照1929年的线路往下走,你会发现如果三个月以后进行投资就会赔一些。五年之后更是天壤之别。基于信息的决策会给很多企业带来天壤之别的效果。你如果做了很正确的决策,判断一下2008年这个危机可能是更像1987年,还是更像1929年。做对了决策,就会产生这么大的差别。
在华尔街经常会出现从你知道你不知道的地方开始突破。我举一个例子,11月12号,欧盟裁定英特尔侵犯AMD的知识产权,让英特尔赔付了12.5亿美元给AMD,第二天AMD暴涨20-30%。这一天,如果作为投资人来说,你怎样操作你手中的持股?是应该追买AMD,还是应该把你现在持有的AMD卖掉?你如果还持有英特尔呢?英特尔的这条红线跟AMD之间是什么样的关系,是AMD大涨以后,英特尔就大跌吗?还是就此半导体业会平息很多年,双方平衡发展。当然我们现在知道最终,英特尔的股票那天没有大跌,大家认为半导体业会平静地发展几年,不会因为两个行业巨头之间的知识产权的诉讼官司而牵涉过多精力。
其实,现在华尔街上很多人在基于大量信息做这样的赌博。他们从大量数据中分析规律,一旦分析出规律以后,用很短的时间做一个决策。比如说我的规律是如果AMD的股票价格超出它的15分钟VWAP(即加权平均价格)2%的话,同时跟下来S&P500指数波动0.5%,并且AMD的股票上升5%或者英特尔的股票下跌2%,如果这一切在两分钟之内发生的话,我就买英特尔,卖AMD。这是通过大量数据的分析,在事前订立好规则。随着华尔街上万只股票的报价出来以后,我会去抓这两只股票的信息。这就是典型的深挖掘、速决策。这样就能赚钱,这在华尔街已经不是新鲜的故事。
但是这样做会有非常令人惊讶的挑战。全美国所有交易所的股票数目都加起来,将近有1万只。如果我今天要分析出这样的规律,我要搜集多大的数据量?假设要搜集9千多只股票所有的价格波动信息,每一分钟、每一秒的波动信息。假设每两秒钟波动一次,每一个波动要收集买价、卖价、成交价和成交量。每天7个小时,每年250个交易日,要收集50年的数据,最后要分析的数据量有6万亿行。我要在这样的大海里找我知道我知道的,乃至是我不知道的东西。这是各个企业的CIO将面临到的问题的缩影。可能在座企业的数据量没有到万亿的级别,可是我要告诉你们,将来你们都会遇到这样的情况。以前华尔街也没有想到他们现在能做并且在做几万亿行的数据分析。
在这样数据挑战的前提下,企业在呼唤突破性的技术。没有突破性的技术,不可能分析这么大的数据量。就好像说,如果我今天想把我们村里面的柿子卖到北京或者卖到美国,我现在掌握的技术就是只有一辆农车或者我听说别人修了公路,做不到的。我们现在呼唤的是突破性的技术,比如说飞机是一个突破性的技术,它完全升空了,到了天上,没有了摩擦阻力,才会把速度提高到几十倍。现在传统的行式数据库,在OLTP(交易型应用)和OLAP(分析型应用)里面所处的地位是混合,它在两类应用中都基本适用,但有都又不专长。在交易业务领域里面,在有更高挑战时可能要接受内存数据库技术。而今天我们提到的海量数据复杂的分析领域里面,列式数据库正是这样一个突破性技术。这个突破性技术给我们带来的意义是空前的。
什么是列式数据库?传统的行式数据库把数据按行存放,比如一个人的信息,身份证号、姓名、年龄、性别、收入、邮编号、家庭住址、教育程度等等。当我们要做海量数据分析的时候,我们对全中国14亿人口进行收入层次和教育程度之间的相关性分析,我不会关心你的姓名,我只需要抽取你的收入和教育程度这两个字段。在做海量数据分析的时候,行式数据库就会暴露出一个弱点,它会读取相当大量的不相关信息。也就是说,它会把姓名、家庭住址都读进来以后才发现你要的只是收入和教育程度的信息。这样就会带来大量浪费的IO和时间消费。而列式数据库从根本上改变了传统意义上数据存放的原理,数据是按列存放。也就是说,所有的身份证号放在一起,所有的姓名放在一起,所有的家庭住址放在一起,所有的收入情况放在一起,所有的教育情况放在一起。这样一来,当你再做教育程度与收入情况的相关性分析的时候,列式数据库只会读取中间涉及到的这两列或者三列,其他所有不相关的数据根本不会读取。这一项就会节省大量的IO。另外,由于每一列的数据类型都是一样的,数据特征都是相似的,比如说收入大概不超过1亿、教育程度无非分成十档,这些数据特征是完全有规律可循的。我们可以在这一列上通过高效的压缩算法进行压缩。有高效的压缩算法以后,数据库会被大量压缩下来。我刚才提到的6万亿行股票报价信息,其实并不是虚幻的信息量,这是在华尔街正在使用的。这个数据库里面有1000TB的数据量,6万亿条股票的报价信息。通过列式数据库的存储,可以发现一个奇妙的结果,就是把这1000TB的数据压缩成了159TB,是6.3倍的压缩比。这意味着什么?这对企业意味着大量硬件开销的节省以及能源开销的节省。这在很多企业里面,当你认识到节能减排不光是交通部门的事情,不光是运输部门的事情,不光是物流行业的事情,也是每一个IT行业可以参与,可以有所贡献的地方。一个大型数据中心每年使用列式数据库节约下来的电费是惊人的,可以达到上百万人民币。但是,我们在建设这个数据中心的时候,或者在数据库选型的时候,往往不会把这些因素考虑进去。
除了压缩以外,由于列式数据库大幅度提高,不管是在信息的加载以及对信息进行细致分析的过程中,都会得到10倍甚至更高的效率。也就是说,它可以用更短的时间,把更大的数据量分析出来,恰好符合我们今天所提倡的深挖掘、速决策。
列式数据库已经成为IT行业的潮流。比如我们众所周知的Google公司,他们在处理这样大海量信息的时候,他们自己设计了列式数据库Bigtable。雅虎公司也是这样,接受了开源的数据库进行改造。Sybase公司有一个旗舰产品叫做Sybase IQ,这是IT界第一个,也是目前最成熟的商用列式数据库。Sybase公司在1994年就掌握了这项技术,并且通过15年的发展,到今天已经到第15版,它已经孕育了多项专利以及多年的研发程度,非常成熟,非常优秀。目前在国内外都还有一些新兴的创业公司在追赶这个潮流。这个潮流的普及以及大量被使用会在1-2年的时间内。列式数据库在全球大型企业都有成功用户,比如美国尼尔森媒体研究公司,它处理15年的几千个材料点的每一次转换摇控器的收视信息。像中国农业银行做了农业银行卡的统计分析系统,2008年获得了美国计算机世界的荣誉桂冠奖项。中国铁道部客票分析系统也是建立在IQ分析的基础上。中国移动各种彩信、短信的分析报表系统。列式数据库的成功应用不一枚举。
回到我们今天的主题,深挖掘、速决策、速转型。其实,企业的成功转型也是奠定二十一世纪发展的方向。我们现在看到像Sybase IQ这样的列式数据库给企业的发展,信息化、科技的发展,提供了非常强大的手段。Sybase公司也愿意和中国所有的企业一起,携手抓住机会,分析出并且把握住二十一世纪的前景。谢谢大家!
(本文不涉密)
责任编辑: