您现在的位置是：首页 > 行业 > 制造 >

川庆物探：IT运维能力决定“找油”能力

2013-09-10 13:50:47作者：来源：

摘要“川庆的三个数据中心现在也只能各管各的，远程监控还没有实现。实际上，我们更希望在这个领域多做研究，实现机房统一、远程、自动化的管理，让投资的硬件、软件资源的利用率更高，保障业务、为业务服务。”...

　　在这个人人关注大数据的时代，对海量数据进行处理有着强烈需求的企业很容易被视为大数据技术应用的潜在用户，IT界似乎更关心那些涉及大数据的新技术如何为这类用户带来价值。但事实上，目前真正困扰这类用户的IT难题，往往根本不需要用大数据这样超前的技术去解决。用简单易用的技术去满足这些被长期“忽略”的需求，其用户价值未必不如那些尚不成熟的大数据技术可观。

　　在处理海量数据上，一直有强烈需求的石油勘探行业，正流行着各种关于云计算、Hadoop的技术普及潮流。但在川庆物探研究中心计算所主任工程师郭玲看来，这些前瞻的新技术，目前与石油勘探行业业务应用的结合点并不十分清晰，是否能够提升“找油”能力也还有待考量。真正影响整个行业“找油”能力的是企业的IT运维管理能力，而这个难题，却常常被IT厂商忽视。

　　“糖果”带来的计算压力

　　技术的进步让“凭经验找油”的时代一去不返，今天的石油勘探项目都是“从数据中找油”。通过地震波法采集相关的地质数据，再对这些数据进行相应的分析、解释获取准确的油藏信息，已成为石油勘探业高效“找油”的关键保障。

　　对石油勘探项目而言，除了存储海量数据的设备外，最关键的IT资源就是计算资源。因为采集上来的地质数据往往数量庞大，而且需要通过地震资料处理类软件和地震资料解释类软件经过复杂的运算才能完成数据分析工作，这两类软件分别用于地震数据的处理(包括去噪、反褶积、动静校正、速度分析、叠加、偏移、反演、地震监测)和地震数据的解释，其所需要的运算量相当庞大。“在我们这个行业，采集上来的原始数据经过地震资料处理类软件或解释类软件的复杂运算，通过矩阵的变化，迭代后会产生更庞大的数据量。但处理结果输出时，又需要进行大量计算，最后变成与原始数据体量规模类似的数据。”郭玲告诉记者，地质数据在整个处理过程中，体量的变化就像一个“糖果”：两端小，中间大，数据处理的每个过程，对计算资源的需求量都非常大。

　　为了保障勘探项目的顺利进行，为各项目组提供服务，川庆物探研究中心计算所投资建设的高性能计算平台有2000多个计算节点，近4万个CPU，每个CPU的核数超过了1万。硬件上的投入看似已经到位了，但当项目繁忙、需要很多应用软件同时在高性能计算平台上运行的时候，系统的稳定性就会出现问题。

　　“我们应用的处理软件种类有十几种，解释软件有二三十种，对于分配给不同软件的计算资源、内存是否够用，是否有因CPU过热导致系统出错等问题，因为无法‘透视’相关信息，我们很难搞清。计算节点太多了，没有可视化的工具，我们只能通过Linux系统提供的一些字符命令查看某些计算节点的状况，全靠手工调整资源，管理效率极低，根本无法保证业务软件能够100%正常运行。”这种状况带来的直接影响是，计算所不得不为这些软件预留出更多的计算资源以备不测，以“资源浪费”换“保险”。郭玲直言，项目忙的时候，计算资源常常不够用，但实际上有很多资源被闲置浪费了，完全可以分配给其他软件使用。所以，在计算平台构建起来不久，如何让计算平台上运行的软件所占用的计算资源的情况直观地显示出来，成为了他们当时最需要解决的运维难题之一。