您现在的位置是:首页 > IT基础架构 > 计算存储 >

以云计算为工具 深挖大数据宝库

2013-08-19 16:25:46作者:中国工程院院士 倪光南来源:

摘要很多人将大数据比喻成一个宝库,那么,怎样挖掘这个宝库呢?云计算是一种非常理想的工具。从这个意义上来说,我们应该将云计算和大数据放在一起统筹考虑。...

  很多人将大数据比喻成一个宝库,那么,怎样挖掘这个宝库呢?云计算是一种非常理想的工具。从这个意义上来说,我们应该将云计算和大数据放在一起统筹考虑。为什么要构建云计算中心?就是要应对大数据给人们带来的挑战。

  应对大数据挑战

  在商业智能应用中有两个经典的案例,通过运用商业智能的手段,促进了商业价值的提高。一个是沃尔玛超市,一个是Target超市。沃尔玛通过分析客户的消费习惯,发现很不相干的两个货物在消费的时候会产生很强的正相关性,比如把啤酒和尿布放在一起,年轻爸爸在买尿布的时候会顺便买了啤酒,或者在买啤酒时想起还要买尿布,这两者的销售量都会有很大增长。如果没有进行数据挖掘并加以分析,一般的销售人员是很难想到的。怎样有效挖掘并更好地利用大数据,是当下需要认真思考并面对的课题。

  为了更好的利用大数据价值,我们要用一种新的思路来考虑支撑整个数据处理过程的体系架构,即把分层思路从单一系统架构延展到整个平台范围,将整个数据处理平台按照分层思路统一规划设计,依据系统不同组件的物理和逻辑特性在系统范围内分层。

  今天所说的大数据与以往的数据有很大的区别,主要表现在如下四个方面:第一,从数据量来看发生了变化,过去的数据是TB的量级,现在大数据为PB的量级,数据量明显增多。

  第二,从数据特性的角度来看,过去处理的是结构化的信息,而且是非实时的数据。现在面对的是非结构化的数据,大多是实时的。

  第三,从数据来源看,过去比较简单,往往来自企业的POS机。现在大多是社会日常运作过程中和各种服务中实时产生的数据,来源具有广泛性和多样性。

  最后一点是应用领域,现在人们更多地关注大数据跨领域的应用,应用比以前更加广泛。

  最近几十年用计算机进行仿真模拟发展很快,这使得人类进行科学研究的能力有所提高。人们可以通过计算机仿真取得和科学实验同等的、相似的结果。这几年来,由于大数据的出现,人们觉得可能会出现一种新的方法,就是从大数据本身来提取规定。模拟仿真还是建立在理论的基础上,需要有理论公式,有模式,但大数据时代即使什么都不知道,通过大量的数据推导出新的规则也已成为可能。

  大数据的生态系统,无外乎是数据的来源,把个人、公共部门和私人部门作为数据来源,把数据输入共享的数据库,通过数据挖掘的方法进行加工,最后达到我们所要求的目标,比如对突发事件的响应、对危机性质和变化的更好了解、对需要服务地区的准确定位、对供求关系的预测能力。

  可视化的云计算

  如果说大数据是座蕴含大价值的矿藏,那么,云计算则可看作是采矿作业的得力工具。云计算是为解决大数据等问题发展而来的技术趋势,没有大数据需求,云计算的功用也将得不到完全发挥。因此,大数据与云计算是相辅相成的。

  云计算很重要的一个特点就是可视化,它是寻找数据的重要工具。

  世界上有上百个国家,每个国家有几千个公司,怎样了解网络使用的具体情况,以及每个国家在这个产业中的地位?根据数据统计,按网站访问量的大小来排列,第一梯队是中国和美国。第二梯队包括欧洲、俄罗斯、日本等等。美国访问量最大的网站第一是谷歌,第二是facebook,第三是雅虎。中国访问量最多的网站是百度,第二是腾讯QQ,第三是新浪,第四是网易。通过可视化得出的结论比数据包要准确得多。

  在大数据挖掘中很重要的就是找到关联。人们通过发现数据的关联可以找出一些新的规律,特别是现在数据量很大,怎么样快速地通过云计算的方法找出大量数据之间的关联是非常重要的。

  用谷歌的搜索工具得到的搜索数据跟现实情况是相关的。比如出现一个事件,官方要搜集全国的数据才能进行报道,可能半个月以后才能发布。我们怎么才能及时掌握情况,积极采取措施呢?如果有一个搜索的结果,就可以预见突发事件的发展情况,可以给决策部门很好的指导。

  在这方面已经有成功的先例,“谷歌流感趋势”项目就是依据网民搜索内容分析全球范围内流感等病疫的传播状况,分析结果与美国疾病控制和预防中心提供的报告对比,追踪疾病的精确率达到97%。

  再比如通过对印尼推特上的数据分析,人们发现讨论米价的帖子和实际米价的关系,同样是很好的正相关。当在推特网上开始讨论米价的多贴子多了,米价就要上升,讨论少了,米价就会下降,这对于控制需求会产生很重要的影响。

  还有美国的总统大选,过去都是坐在电视前面竞聘,现在都是坐在电脑前面进行数据分析,通过大量数据分析,奥巴马就会知道下一次演讲适合讲哪些内容。

  大数据让城市更智慧

  中国的数据资源很丰富,这是我们的优势。现在每个城市都有很多摄像头,如果把视频数据算上,中国的很多数据量在全世界都是最大的。虽然,我们的应用相对滞后,但我们觉得未来有很大的潜力可以挖掘。

  南京在智慧城市建设中有效地应用了大数据。可以对每辆出租车都可以进行定位,把这些数据搜集起来就可以实时监控出租车的情况,比如知道几点几分这个地方的出租车密度,哪些地方的出租车不够用,需要调配,指挥中心就很清楚出租车的分布情况。

  政府能够把三大运营商的数据整合起来,因为每个人都有手机,通过数据可以清楚地知道人流的情况。在街上走的人,99%都有手机,如果某个地方的数据忽然增加20%,就说明这个地方有异常情况发生。这个判断是非常准确的,可以知道究竟有多少人聚集在这里。通过大数据的分析和监测,有助于我们保障社会安全。

  通过摄像头的覆盖,可以建设电子围栏。如果有两辆车的车牌相同,通过数据库和监控系统的联通,马上就可以被发现,并辨别车牌的真假。

  大数据的应用还有很多问题亟需解决,隐私权的保护就是其中很重要的一个问题。有些公司通过提供服务掌握了用户的所有信息,比如移动应用商店的账号、身份证号、地址、应用习惯等等,这些信息一但泄露就会给用户造成损失。保护隐私需要通过法律法规进行规范,以便我们正当合法地使用大数据。

  (以上内容系根据倪光南院士在2013中国国际云计算技术和应用展览会暨研讨会上的演讲整理而成)

  相关链接

  无处不在的大数据

  大数据已经在改变我们的生活和工作,表现在:第一,数据产生方式已经被极大地改变。因为以前数据的生产都是由专业团体、专业人士,或者是专业公司完成的,现在数据更多是由个体行为产生。数据产生方式发生了非常大的变革。第二,数据传播途径发生很大的变革。以前我们获取信息的来源基本上是平面媒体或是传播媒体,现在,特别是年轻人,信息来源基本通过互联网,这个改变对整个社会也产生了非常大的影响。今后信息的主要传播途径是通过互联网媒体。第三,社交环境网络化变革。以前大家交朋友多是自己生活的圈子,现在更多的是通过互联网这种虚拟的环境。第四,数据存储习惯发生的变化。以前人们都自己保存一份拷贝,或保存在电脑中,或刻在软盘里,现在大多数人直接将这些数据在云中进行存储。第五,社会安保系统的变革。虽然这一点还没有真正实现,但现在整个城市里面已经有很多的传感器、摄像头等设施,通过它们可以使得社会变得更加安定。


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们