您现在的位置是:首页 > 数字化转型 >

五大妙招:管理海量信息数据

2011-10-25 15:14:00作者:范范编译来源:

摘要想象一下你的数据库中的4490亿个对象,或是每周要新增40TB的新数据,你是否认为数据中心的存储系统已经失去了控制。 ...

  想象一下你的数据库中的4490亿个对象,或是每周要新增40TB的新数据,你是否认为数据中心的存储系统已经失去了控制。

  管理海量的大数据所面临的挑战涉及到存储大型文件、创建一个长期的存档,当然还需要让这些数据能够被访问。

  Winter咨询服务公司分析师Richard Winter称,尽管数据管理是公司IT部门的一个关键职能,但是目前让人抓狂的情况已经将市场行为推到了一个新的水平。Winter咨询服务公司一直致力于研究大数据发展趋势。

  知名公司和新成立的公司都会定期推出一些新产品。他称,无论是Hadoop、MapReduce、NoSQL,还是数据仓库工具、文件系统、新架构,数据分析领域正在蓬勃发展。

  Winter称:“我们已经让产品的重点转向了移动、复制和联机分析数据。随着厂商致力于解决来自社交网络、传感器、医疗设备及其它数据源的海量数据,可扩展架构开始被普及。”

  一些厂商非常清楚在管理真正的大数据中所面临的与生俱来的挑战。在Amazon.com、尼尔森、马自达和美国国会图书馆,这一任务需要采取一些创新方式以处理数十亿个对象和千兆级存储媒体,以快速检索标记数据和发现错误。

  采用元数据方案

  美国国会图书馆每年需要处理2.5拍字节数据,相当于每周要处理40TB数据。国会图书馆企业系统工程组长Thomas Youkel评估认为,随着图书馆继续执行双重指令以为历史学家提供数据服务和保护所有形式的信息,数据负载在今后几年翻两番。

  国会图书馆在两个数据中心的600台服务器上配置了15,000至18,000个硬盘以存储信息。大约90%,超过3PB的数据被存储在光纤连接的SAN,剩下的被存储在网络连接的存储设备上。

  咨询公司StorageIO的分析师 Greg Schulz称:“国会图书馆有一个很有意思的模式,被存储的信息有一部分是元数据,另一部分是真正的内容。” Schulz称,尽管有大量的机构在使用元数据,但是让国会图书馆与众不同的是他们的数据存储的规模,以及为他们收集的所有东西都贴上标签,包括古老的录音、视频、照片和在其它类型媒体上的文件。

  Schulz解释称,对于那些很少被访问的真实内容最理想方式是离线保存在磁带上,同时一些小样或是低分辨率的拷贝保存在硬盘上。元数据可保存在一些不同的存储库中以进行搜索。

  为了最大程度的保护数据,国会图书馆使用了两套独立的系统。一套系统是大型的磁带库,拥有6000部磁带驱动器插槽,其使用的是IBM的通用并行文件系统(GPFS)。该文件系统使用的理念与Flickr.com的元标记照片相似,即通过算法对文件进行编码,以让这些数据能够被更容易处理和被更快的检索。

  第二套系统拥有9500部磁带驱动器插槽,由甲骨文/ Sun磁带库组成,其在甲骨文SL8550磁带库中使用了Sun快速文件系统(QFS)。

  目前,国会图书馆每个数据库拥有大约5亿个对象,不过Youkel预测这一数据将会增长到50亿。为了对这增长做好准备,Youkel的团队已经开始重新考虑命名空间系统。他称:“我们正在关注能够处理这么多对象的新文件系统。”

  Gartner公司存储分析师Gene Ruth称,正确的升级和扩展非常重要。当数据存储增长超过10PB,备份和处理这些文件的时间和成本将迅速攀升。一个方案是:在一个主要的场所设置一个基础设施用于处理主要数据的获取,然后再设置一个辅助性的长期文件存储设施。

 

   将文件分解成易管理的数据块

  勇于尝试云计算服务的电子商务巨头Amazon.com正在快速成为全球最大的数据存储商,为了满足自身的存储需求和客户的存储需求,亚马逊在其云计算上存储了4500亿个对象。亚马逊Web服务的存储服务副总裁Alyssa Henry解释称,这个数量相当于全美每人分配到1500个对象,等于银河系每个星星都可以分配到一个对象。

  数据库中的一些对象相当的大——大到每个5TB,大到他们自己都可能成为一个数据库。Henry称,她预测到2016年,单个对象的大小将增长至500TB。

  她称,应对这些大型数据的秘密是将这些对象分解成数据块,这一过程被称为平行化。

  对于亚马逊S3公有云存储服务,亚马逊使用了他们自己的自定义码将文件分解为每片1000MB的数据块。这是一个通常的做法,但是亚马逊的方法与众不同的地方在于实时对这些文件进行分解。

  Henry解释称:“这一永远可用的架构与一些存储系统形成了鲜明的对比,后者将数据在存档和使用状态间移动,这为对数据检索带来潜在的延迟。”

  损坏的文件是存储经理在处理海量数据时不得不面对的挑战。许多公司并不担心偶然损坏的文件,但是当你有4490亿个对象,即使很低的失败率也会带来一个存储挑战。

  亚马逊使用定制的软件对损坏的内存分配中的每个数据进行分析,计算出总和检查,分析如何快速修复损坏以传输云存储所需要的吞吐量。

  Henry称,由于客户将越来越多的数据存储在S3系统上,因此亚马逊数据存储需求增长显著。比如,一些用户存储用于基因排序的海量数据集,一名美国客户使用他们的服务存储奶牛身上的传感器数据以追踪这些奶牛的活动和健康情况。Henry并没有预测这一数据收集可能会达到多大。Henry称,面对这些需求,亚马逊准备迅速增加节点以进行扩展。

 

   依靠虚拟化

  在美国拥有800名员工的马自达汽车公司管理着大约90TB的存储信息。

  马自达北美分公司的基础设施架构师Barry Blakeley称,公司员工和900名家马自达汽车代理商正在生成越来越庞大的分析文件、市场材料、商业智能数据库、SharePoint数据等。

  Blakeley称:“我们已经将所有的东西都虚拟化了,包括存储。”公司使用由Compellent公司(已经被戴尔收购)开发的工具进行存储虚拟化,使用戴尔PowerVault NX3100作为SAN,使用VMware系统托管虚拟服务器。

  马自达的IT员工数量不多,对此Blakeley并不愿意透露具体的数字。他们通常难以进行任何手工迁移,尤其是从磁盘迁移到磁带上。但是虚拟化可以让这一工作变得容易处理。

  Blakeley称,关键是快速的将陈旧的数据迁移到磁带上。他称,大约80%的马自达存储的数据在几个月里就会变陈旧,这意味着大量数据根本不会被访问。

  为了适应这些使用方式,虚拟存储是一个分层结构:速度快的固态硬盘通过光交换机与第一层相连,以处理公司20%的数据需求。剩余的数据被存储在通过光纤通道相连的第二层速度较慢的7,200转普通硬盘中,第三层7,200转的硬盘被通过串行连接SCSI连接在一起。

  Blakeley称,由于持续使用虚拟存储,马自达正在将越来越少的数据迁移至磁带上,目前大约为17TB。

  他解释称,总体上,马自达正在转而使用“业务持续模式”而不是纯粹的灾难恢复模式。马自达正在替代备份和装置外存储,取而代之的是将正用和备份数据复制在主机代管设施上。

  在这种情况下,一旦主要站点失败,Tier 1应用将迅速安排上线,其它的层将通过复制在主机代管设施上的备份数据被恢复。

 

   利用工具提高速度

  帮助决定电视节目播放时长的评级服务公司尼尔森公司在2万家庭中对本地节目的观众进行分析,在2.4万家庭中追踪全国节目。在经历了许多步骤后,包括计算、分析和质量保证,在首次开播后,他们就会在24小时之内将评级提供给客户。

  尼尔森公司负责客户观察的高级副总裁Scott Brown称,数据在位于佛罗里达的一个中央处理设备中被收集,大约20TB的数据会被存储在佛罗里达和俄亥俄。公司使用了一套高速SAN和网络连接存储。这些设备主要来自EMC,不过Brown拒绝透露一些细节。

  报告主要由尼尔森的数据仓库自动生成,但是在生成过程中也需要手工控制。员工能够找到以前报告的数据,经理能够创建关于电视观众数据的定制报告。

  快速访问电视观众数据是业务的关键。Brown称,公司为他们的数据仓库配备了IBM的Netezza工具。标签会被自动的添加到数据上以检索特殊的测量细节。比如,尼尔森能够找到有多少观众使用了环绕立体声音响,或是他们是否使用了Boxee设备来调看他们喜欢的节目。

  我们有非常细微的信息需求。我们有时希望汇总的信息拥有更广的覆盖面,以能够按需要研究观众的习惯。

  使用合适的技术

  这些公司为如何处理海量数据提供了一个试验场。StorageIO的Schulz称,一些公司能够模仿他们的一些处理程序,包括对文件进行总和检查,合并元数据,以及使用复制方式以确保数据一直能够被获取。

  Schulz称,在处理海量数据时,最重要的一点是,使用与公司需求相匹配的技术至关重要,而不是越便宜越好,或是当时正在流行的技术。

  尽管大数据带来了许多挑战,但是也为我们带来了许多成功的机遇。(范范编译)

  本文转载自企业级IT信息服务平台-网界网-CNW.com.cn

   


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们