您现在的位置是:首页 > 数字化转型 >

白红涛:确保业务系统运行健康高效

2009-11-20 03:18:00作者: 来源:

摘要刚才金老师全面阐述了ERP的应用,进行了深入剖析。我的主题是从侧面跟大家分享一下我们在跟众多制造业客户深入交流当中碰到的问题,以及我们的想法和见解。...

各位领导,各位朋友,下午好!

在这里代表惠普公司软件及解决方案部跟大家分享一下惠普软件在应用业务方面能够给大家带来什么样的高效运行状况。

刚才金老师全面阐述了ERP的应用,进行了深入剖析。我的主题是从侧面跟大家分享一下我们在跟众多制造业客户深入交流当中碰到的问题,以及我们的想法和见解。

我们惠普总结出了几个场景。现在很多制造业用户上了很多硬件架构以后,在技术架构的监控方面做了很多工作,比如说第一个场景,在架构方面,很多IT管理人员会一直到,觉得技术架构监控的很多问题都应该能通过技术架构的监控软件捕捉到。实际情况,据我们不完全统计,大概有74%左右的应用问题是由最终用户发现,然后反馈到我们IT部门,再解决问题。这样给IT部门带来比较大的压力。有时候可能去投诉,有的时候可能直接跟领导反映在实际应用当中发现的问题。这样就显得比较被动。

第二个场景,当一接到用户电话的时候,我们就肯定很快采取行动。但是,我们也不知道最终用户是不是打了投诉电话。

第三个场景,也就是IT部门的传统做法,经常发一些包,基本是成功的,外部site也是能起来的。但是并不意味着业务可以流转。

第四个场景,很多IT用户一旦碰到一些问题,他们都会认为网络是最大的瓶颈。但是实际情况,通过我们的工具和分析手段总结出来,其实性能问题平均牵涉下来有6-8个不同的组。从网络,从主机性能,从应用本身,有很多的组是相关联的,不只是网络的问题。

最后一个场景,有些业务部门喜欢看我们服务器在线的时间报表。实际情况怎样呢?很多业务部门并不关心这个。他们关心他们的业务能不能顺畅正常地运转。

由此,我们引出惠普目前有一套业务系统健康管理模拟用户体验。比如像银行、电信、成熟的制造业用户都使用了业务系统健康管理。通过模拟用户,从不同的物理地点定时运行业务脚本,也就是模拟最终用户实现平时的业务职能正常运转。通过模拟用户的真实体验主要带来几方面的价值。第一,通过主动式监控。也就是不管真正的用户是不是使用这个系统,或者在使用当中或者说使用之前,通过模拟的方式,就可以直接体验到系统目前的运转状况,是不是有一些问题,尽早发现;第二,创建基于业务的SLA服务级别;第三,从不同区域进行管理。

从这张树状展示图可以看到,从业务可用性、平台以及系统状态对应用系统进行整体把控。这是北京移动网管的例子,树状图会延伸到各个子系统,比如下面牵涉到硬件架构、网络和真正运转的主要业务订单,这些系统都会在树状结构图上清晰地了解到。通过预值的设置,可以看到目前系统有问题的地方,出现了什么具体问题,会有一些提示。具体的每一笔核心业务,从红颜色和绿颜色的图标上可以看到。通过地图的分析方式,具体到哪个地域出现了问题。

通过SLA,通过状态报表的展现和细化分析,具体到每一天、每一周、每一年,生成详尽的报表。帮助企业管理层决策如何有效支撑核心业务的发展。可以看到每一个时段的性能情况、可用性情况。具体到每一天的业务,可以设置到每一个时间段,比如一个小时,或者说每15分钟到半小时是一个时间段。可以明晰地看到这个时间段里出现了什么问题,这个上面展示的两个分部,一个在香港,一个在北京。香港那边出现一个页面,在某一时段经常出现问题,用户感觉到在使用当中一直有问题。虽然北京这边一直运行正常,但是在某一点、某一时段上,给用户的感觉是整体上出现问题。

从各个层面,从业务流程方面,核心的关键处理流程,当时的动态分布情况,比如它的性能、处理速度、处理能力,都可以直观地看到,可以第一时间找到问题根源,解决实际问题。

失败业务分析报告。如果某一个业务当中发现问题,这个问题到底在哪里,到底对哪些业务产生深刻影响。通过失败业务的分析报告总结出失败的原因,下一步可以有重点地解决失败的业务。

网络响应时间分解。通过网络瓶颈,到底是在哪个地方产生的,最终分析出整个业务系统的应用性能。

业务性能分析。通过系统活动筛选器,比如有下载的缓冲服务器时间、DAS时间,可以通过分块进行剖析。

BSM是经过业内广泛认同的企业,这是一个基础架构平台,从下向上可以看到业务的基本情况。比如可以看到主机、网络、存储等等。有的时候,在基础平台监控的时候,并没有发现问题。但是,用户应用的时候感觉速度很慢,又不知道什么原因。现在,我们有了一个融会贯通的方式,可以通过业务服务的视图来观察业务应用情况。通过业务交易管理、业务服务级别管理、最终用户体验管理、性能诊断和问题隔离分析融会贯通,把我们系统运转当中发现的问题统一到数据库管理当中,避免不能最终定位真正的问题。

ITSM也是与我们的管理理念融会贯通的。我们的一些大客户应用DSA,也就是运维自动化理念,目前银行、电信行业比较重视这个方案,可以在统一的控制平台上解决问题。

刚才我们主要是说如何发现问题,有一些基础架构也能发现问题,通过自上而下的监控也能发现问题。但是,有些问题可能是深层次的,或者说应用开发在前期设计的时候,或者在开发当中就出现了很多问题,是我们平时发现不了的,就需要深层次的诊断工具,来帮助解决这些问题。就好比在医院里面的高档影像设备。讲到这里,我举一个例子,在一年多以前,北方有一个大的钢铁企业,他们在应SAP的ERP系统,用了大概三四年的时间。原来他们有一个月结的物料账。用了三年多以后,这个用户发现跑了48小时,物料账都跑不完,发现它的性能相当低。后来通过惠普的性能诊断工具,结合压力测试工具,以服务的方式跟他们做了一次交流,通过五天的时间,真正找出问题,通过解决手段,把性能调到正常的2个多小时。通过性能诊断,深层次的剖析工具,可以发现具体的问题根源在哪里。

它主要适用于目前比较流行的J2EE架构、ERP、CRM系统等等。可以对应用分层分析,精确定位应用的瓶颈。在每一个分层之间设定一些具体的响应时间的参数。可以细化到代码方法和SQL语句,减少应用问题的解决时间。与LoadRunner集成,从事物层面Break Down。

LoadRunner+诊断工具,从服务水平协定,道是无处理,到应用代码,甚至到SQL语句,层层深入剖析,真正发掘问题的根源,然后再有针对性地解决问题。

目前LoadRunner在全球的市场占有率在百分之八九十,基本是行业测试的标准。

性能测试确保系统高效运行。您的应用能够满足常规和高时期的使用吗?像去年奥运会的网站售票系统,也不是系统当时的设计有问题,而是没有对峰值进行很好的评估。先到先得的原则,当大家同一时间登录的时候,就很容易造成系统的崩溃。

您能快速定位性能瓶颈所在吗?这也对IT部门提出了比较高的要求。有一些简单的问题,通过一些手段可以看到。但是,一旦系统面临高风险或者面临崩溃的时候,这个就显得尤为重要,性能瓶颈到底在哪里,如何防范系统崩溃。

优化后的系统结构能够满足服务水平的管理吗?一般每个企业都会有自己的服务水平。如何通过一种手段来达到这个服务水平,就要通过一定的优化措施来达到要求。

手工性能测试的困境。从人力资源、设备投入方面,如果都是通过人工来测试,同时达到峰值有的时候是很难模拟的,比如正常用户是1万个,你不可能让1万人同时按一个按纽,来进行性能检测。如何来同步所有的测试人员?如何搜集与分析全部的测试结果?如何保证测试的精确程度?这些通过手工几乎都是做不到的。

自动化性能测试。它是通过虚拟用户代替真实使用客户,从单点产生可度量、可重复的压力。我们在上ERP系统的时候,不可能是上一个系统用几年时间不进行更新、升级,这些工作都是要做的。在做的过程当中,本身系统是很稳定的,有的时候可能就因为打一个小补丁就对系统的关键业务产生很大影响。有了自动化手段,重复使用这个系统的时候就会很放心,发现瓶颈在哪里,然后产生分析报告。

性能分析器。定义用户的服务水平、发现用户网络、系统和应用脚本的瓶颈、比较多个项目、创建基线,达到最终用户整体性能的提升。

我的介绍就到这里,如果各位有问题,可以提出问题,大家一起交流。谢谢大家!


(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们