您现在的位置是:首页 > IT基础架构 > 计算存储 >

大数据:千万个“路人甲”的价值逻辑

2013-10-12 09:52:55作者:来源:

摘要正如吴甘沙所说,普通人早晨的洗漱习惯很有可能成为那些导航地图生产者所需要的数据,而这些产品则会反过来让每个人的生活变得更便捷、更可支配。...

  作为一个生活平淡的人,你是否设想过在完成了某一天的无聊工作后,会在自家的厨房里听到警察的敲门声,然后被告知你可能跟一周后即将发生的一起凶杀案件相关?

  在汤姆·克鲁斯主演的电影《少数派报告》(MinorityReport)中,神秘的“先知”计算机系统能够预知犯罪活动,甚至可以精确到时间、地点及卷入其中的人物,让警方能够提前行动加以阻止。

  而在现实中,这并非小说家的凭空想象。美国洛杉矶因警员比例过低,一直是全美犯罪率最高的地区之一。2012年,该警察局开始进行了一项尝试,由加州大学人类学与数学系联合组成的一个实验室,为该局提供了一套类似“先知”的计算器系统。这套系统把洛杉矶市发案最高的福德希尔地区划分为几个区域,通过分析过去的1300多万起案件,找到了发案与日期、天气、交通状况以及其他相关事件之间的某种关系,进而能够预测出哪个区域在未来数小时内可能发生案件。

  现在,洛杉矶警察局有一组专门的警员每天会驾驶着警车按照计算器发出的巡逻指令前往不同的区域。尽管这些熟练的经验丰富的警员仍然不适应被一堆二进制的代码所指挥,但是在不增加警员的前提下,“先知”已经使该地区财产犯罪下降了12%,盗窃案件下降了26%。

  美国的另外一所大学——麻省理工学院正在进行另外一项研究,他们与当地一家妇女医院合作,把该医院所有心脏病患者的病例和心电图录入计算机,从而创建了一个计算器程序。当有病人来这里看病时,这个程序可利用心脏病患者的心电图,预测在未来一年内患者心脏病发作的机率。美国咨询界的翘楚麦肯锡咨询公司将这些现象总结为一个概念——大数据(BigData),并预言这项技术将成为人类未来生产力的指向标。随后,英国牛津大学教授维克托·迈尔-舍恩伯(ViktorMayer-Schonberger)的著作《大数据时代》在全球畅销,让大数据这个概念开始深入人心。

  “很难准确地描述什么是大数据。”维克托教授说:“它应该是一种思维方式,这也是一个新的改变,从因果性到相关性的转变,也就是不问原因,而是直接由数据得出结果。”

  他说,在过去我们问的更多的是“为什么”,对人类来说,这其实是一个很大的挑战。比如心脏病发作这项研究,尽管医学界已经研究了几十年,但是仍然很难找出发病的具体因果关系,但是现在,只需要建立一个足够大的心电图数据库,并且找到数据与心脏病发作的对应关系,就可以作出准确的预测。

  “搜集和分析数据,从表面上看,这就是大数据的开发者们正在做的工作,这并不是什么新的技术。”北京缔元信公司CEO秦雯说:“但是互联网的发展使我们在过去的数年内制造的数据超过了人类历史上的数据总量,更重要的是,随着全息摄影技术、传感技术以及谷歌眼镜这样的新技术的诞生,我们收集数据的能力变得前所未有地强大,数据的爆炸性增长为更全面和精确的分析工作提供了可能性,这正是这个时代的价值。”

  整合无序的资源

  6300多年以前,古埃及人通过太阳升起和下落之间的时间规律制做了太阳历,预测太阳在某一天何时会升起,将单向前进的时间划分为365天为一个周期。2200多年以前,中国人通过观察候鸟迁徙和植物发芽制作了二十四节气,大致预测了一年之中的天气变化情况,让农业的播种和收割时间变得有规律可循。

  北京缔元信数据公司CEO秦雯认为,从广义上看,这些都是根据过去的数据进行的预测,但是与现在大数据的含义相比,这些预测显得过于广泛,而且规律更容易掌握。现在的大数据更多的是分析由人类行为所构成的现象,比如华尔街的股票走势、洛杉矶的犯罪发生情况、淘宝网上即将热销的商品,而在过去这些都是不可预测的。

  1966年,美国交通事故死亡人数高达5万人,达到了历史的峰值。美国国会要求联邦政府立即建立一套有效的交通事故记录系统,分析确定交通事故及其造成死亡的原因,以期望找到最能够避免事故的交通规划方式。

  这在当时看起来仅仅是一种前途未知的尝试,因为一起交通事故的数据可能是完全独立且无序的,一年的数据、一个地区的数据也看不出太多章法。然而随着跨年度、跨地区的数据越来越多,群体的行为特点就会在数据上呈现一种“秩序、关联、稳定”,更多规律就会浮出水面。现在,美国的汽车保有量是中国的3倍,而交通事故死亡人数仅仅是中国的一半。

  这种做法最符合现在的大数据含义,而且也是人类最早在大数据方面获得的甜头。

  英特尔中国研究院首席工程师吴甘沙说,大数据并不仅仅是大量的数据,而是在看似无序和不关联的数据之间找到某种关联,发掘这些形态各异、快慢不一的数据流之间的相关性,是大数据做前人之未做、前人所不能的机会,也正是大数据最主要的特点。

  “比如,你如果知道人们在晨洗之后多长时间会走出家门,再从供水系统的数据中找到用水的高峰时间,就能准确地预测到今天早晨哪个区域哪个时间路上的交通最拥挤,同样可以从电网数据中统计出傍晚办公楼集中关灯的时间,加上偏移量来估计出堵车时点。”他说。
(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们