专访程显峰:APM大行其道 折射出运维与管理之痛

原创
开发 移动开发
与显峰认识已经有很长的一段时间,记得曾经在AdMaster的时候与显峰做了个关于敏捷的专访,当时他一直强调国内在管理方面的落差,很少有非常资深的人去做这方面的工程化。也许是由于长期的沉淀和感悟,显峰认为技术管理交流沟通才是核心价值,能够快速提高初级程序员的成长。

显峰,蓝海讯通(包含SaaS级OneAPM与企业级blueware两块业务品牌)的***运营官,10年IT领域经验,知名技术顾问;MongoDB中文社区的发起人,并作为AdMaster***布道师且共同创建了北京研发中心,曾任积木盒子技术副总裁,拥有悉尼大学硕士学位及哈尔滨工业大学学士学位。

[[123883]]

“我跨的领域稍微多,但大部分时间都在做技术管理的工作。”

与显峰认识已经有很长的一段时间,记得曾经在AdMaster的时候与显峰做了个关于敏捷的专访,当时他一直强调国内在管理方面的落差,很少有非常资深的人去做这方面的工程化。也许是由于长期的沉淀和感悟,显峰认为技术管理交流沟通才是核心价值,能够快速提高初级程序员的成长。也是如此,显峰在AdMaster一直负责做技术管理,团队组建和培训员工。后来从AdMaster离开后到积木盒子及现在的蓝海讯通同样继续着技术管理的工作。

今年算是APM的元年,您认为在国内APM一下子蹦进人们的视野里,从而受到业界关注的主要原因在哪里?在管理方面会有哪些改变?

程显峰:先谈谈APM是什么。现在大家都在谈应用性能管理,实际上国内对这个认识还是很粗浅。APM在中国算是一个元年,但是美国很多互联网化的企业在2008年已经在使用,比如像IBM、戴尔、惠普这些大企业都有自己的APM解决方案。实际上它并不是一个新的概念,为什么国内现在才被大家所认识到?我觉得很大的原因是中国的软件生命周期短导致的,国外的一个软件可能有五年,十年,十五年的生命周期,它的业务系统也非常稳定。但是在国内大部分软件就没有那么长。在这种情景下,采用服务性质的软件的动力是明显不足的。比如你买了一辆车准备开30年,平时肯定会去精心的保养。但是这辆车只准备开一年,可能就不会太注重保养,或者保养很差。APM就像汽车领域高效的保养,当系统出现问题时能够很快的发现和报警。

大家经常会问一个问题,APM是不是跟监测一样?其实APM跟监测的性质不一样,监测能发现问题,并不能诊断问题,但它在某种程度上确实有监测的效果。就像一个体温计,知道你这个人体温39度已经发烧了,却无法断定你问题出在哪里。我们可以把APM看成CT机,它知道你哪一个部位出现了什么问题,能清晰地定位出来。

再看运维,目前Operation是非常缺乏的。很多IT企业往往是重研发轻运维,主要是系统生命周期非常短,所以运维投入不够。

国外的情形就像飞机一样,正常运作能达到十几年,极其注重安全和稳定性,所以特别的精心地保养,每年的费用也很高,对于国内的大型企业也是这样子,生产系统运营时间长。实际上国内金融、电信、能源,这些行业客户很早就应用APM。所以说今年APM被业界所接受,那是互联网化的一个结果,并不是很早的一个概念。

为什么APM越来越重要?这其实要从IT系统运维面临几个困境说起:

***个,系统越来越复杂,越来越分布式。

第二个,有很多遗留的系统,要兼顾这些五年、十年前的系统正常运行,这就给运维造成很大的压力。

第三个,业务始终是动态变化的。

大家都知道,IT公司运维每天都在应对不同的变化。在传统运维上有很多职责,在这种复杂的情形下会导致被拖死在一个泥潭当中,无法抽身去做一些更有附加值的事情。在美国运维叫IT Operation Analysis,也称为ITOA(IT运营系统分析),那是基于大数据对IT的配置、性能、数据泄露、合规性等所有的指标都有一个整体的分析。

从分析的角度去理解非常好,能解决大量的问题。问题是你没有APM,分析需要的数据就无从而来。数据分析从传统意义上基本是来源于三个方面:基于网络的数据、基于日志的数据、基于APM的数据。广义上这几方面都是APM行业,但是如果从狭义上去理解这种基于探针(Agent)技术的APM,它所提供的数据是网络和日志几乎无法比拟的。

***,先说日志。如果开启的日志比较多,你会淹没在大量的日志事件和噪声当中,提取非常困难。但是开启的级别非常低就会发现问题根本无法定位。实际上日志的力度非常难以控制,而且也是一个事后分析的方式,延后性比较突出和明显。

第二,网络虽然有全量数据,ITOA运行在比较重要的网络真实结构图中,而网络出现故障后诊断时最重要的指标为MTTR(平均恢复时间)。可是网络故障对平均修复时间来讲,帮助的意义并不大,只能定位到机器或者HOST这种级别,实际上对诊断问题的帮助从现在的复杂程度看定位不清晰。所以,现在要提升到应用级别的定位才能解决问题。

APM根据ITOA这种理念,包括可行性分析、性能等所有的维度都列出来,是在所有的ITOA成分里面最难的。一个可用性分析的监控自己就可以搞定,不过关于Performance的实现。有第三方机构在美国做了一个深入的调研,大家一致公认Performance性能是ITOA里头***有技术含量的。所以,当它比较难以实现的时候,我认为应该找一个合作伙伴,就像硬件里头最难的芯片,IT公司很少自主研发芯片,大家都通过合作的方式,节省开发成本以及人力投入。

更多时候大家需要转变的是思路,从而获取整体上IT运营价值,而不是从某种纬度上去节省费用,应当从长远的角度分析是否具有投入的价值。

根据你这么多年的管理经验,你认为一个优秀的团队应该具备哪些能力和特点呢?

程显峰:首先我觉得作为一个技术公司来讲,技术能力无疑还是公司最重要的能力。而我们在做应用性能管理这方面跟其他企业完全不一样的地方在于业务跟它的技术是完全合二为一的,所以技术就是我们最核心的业务。说到技术能力,我们比较自豪的是用很短的时间在大型商业系统、核心系统里面稳定地运行。并不会拿一些终端客户的数据来替代我们在核心系统里的数据。同时,我们会主动要求客户做非常严格的POC测试,会帮助他制定测试标准和建议,客户也会公开公正地去做比较。所以,我们在技术上表现也是非常有信心。

另一个就是服务客户能力。为什么国外的APM在国内很难用?网络原因是一方面,更重要的是我觉得对客户服务和创造价值的一个能力。我们有非常专业的顾问团队,能帮助客户极快地解决他们的问题。从长期来看我更希望它是一个非常自省、有内生改进动力的这么一个团队。包括在整体我们对APM市场的认识,以及预见能力也是非常重要的。

今年国内虽说APM是一个元年,但是APM的发展趋势,我觉得我们的团队对这方面的认识还是非常深刻的。OneAPM并不是随着潮流冒出来,毕竟我们在之前的BlueWare中给企业级做了很多应用性能管理,积累了很多年的经验。所以我们在这个行业里面有深刻的行业理解,这也是我们核心的能力。

那么在如今的云计算的背景下,运维及运营模式会发生哪些改变呢?

程显峰:首先运营,这是两方面的事情。对于OneAPM,它首先是SaaS模式的一个服务,而对我们自身来讲,是要把传统APM云化的一个表现。另一方面,对于我们客户来讲他们也面临很多云化的事情。所以,未来会有越来越多的企业机构都会把自己传统的业务放到云端。

云化对APM产品来讲是一个非常大的机遇,这也是美国APM技术在2008年发展起来的一个重要原因,像New Relic、AppDynamics的发展,都是借助云计算大势起来的。其中的原因是客户使用云后,摒弃掉很多传统运维的习惯,这个时候能更好的适应现代化工具和新的业务。云简化了运维,强化它的弹性和管理,这些都是APM特别适合的地方。包括云安全策略以及整体上云给大家带来的服务理念,APM的思想与云具有天生的融合。包括现在移动互联网都是APM特别适合的一个场景。我们也跟国内几乎所有的云厂商有这种合作,相当于把我们的产品跟他的客户紧密地结合在一起,为其客户创造非常大的增值的效应。

对于运维,***个是思维上要有一个非常大的转变。最近亚马逊在美国开了Reinvent大会,公布它每年Deploy次数是五千万次,虽然很多人都不相信这个数字,那么五百万次应该是有的。如果是五百万次部署,那也是远远超出了很多人想象能力,对于运维人员更是***的挑战。好多运维人员给一年的时间部署五百万次也没法完成。

这时候问题发生在哪儿呢?其实亚马逊的运维是通过技术团队来完成的,运维团队只提供一些工具,极其自动化。如果大家真正使用云的话,运维团队的角色和思维方式都要发生这种转变,我觉得亚马逊是比较典型的例子。

我们国内运维人员都在做常规的上线和故障诊断这些事情,国外运维人员不做这些事情,至少有很多先进公司的运维人员是不做这些事情的,这是个趋势。要求你能开发工具,以及对架构进行非常良好的设计。所以这对运维人员要求高,同时也需要运维人员要考虑的问题。

现在大家讨论的东西很多关于DevOps、Operation这样的话题,实际上这些话题做到***你就会发现还是回到传统运维做的这些事情。新的运维模式有人提出这样的观点,称ETA(Environment,Tools,Automation=环境工具自动化)。运维肯定会有这样的工作职责和思维上的转变,对他们来说才会从本质上去拥抱新一代技术。其实运维最近这些年的技术更迭非常快,之前几年我们很少听到大规模的自动化运维。

现在自动化程度不断在提高,对性能管理要求也在不断提高,这个实际上对运维人员是个挑战,同时也是一个机会。

像惠普、戴尔他们都在做监测管理,但主要还是针对大企业。

程显峰:对,不过通过Gartner报告来看,只针对大企业是必然会失败的。从互联网市场上来讲,简单有几点,***他们不可能做出用户友好的成品。第二个是他们这种部署的方式和交付的方式完全没有办法实现互联网。第三,他们适应互联网的动作太慢,他们在这个市场上必然是份额逐渐减少,然后渐渐地失掉市场份额。

如今的移动互联网的火爆,带动了创业团队雨后春笋般涌现,你认为会不会有新的竞争者进入到APM这个领域来?

程显峰:首先APM本身就是一个小众的市场,玩家不会很多,即便在美国这种成熟的市场,它的玩家也就是***。另外,APM技术门槛相对来讲比较高,而且需要长期通过实践验证的一个技术,即便你开发出来,很多人也不会相信你能够达到一个良好的效果。毕竟你需要考虑到生长和集成,对于后进的玩家有很多不利的因素。但是APM的市场是非常巨大的,我们还是希望有更多的Competitor进入到这个市场。

现在最热的词就是云计算和大数据,两者之间哪一样都能离不开性能,我们在性能做到提升,这都是本质的一个提升。当性能翻倍了以后,它原来很多不能的事情就变成可能了。比如说有时候经常有比较复杂的广告算法,不能在规定时间内算完。但是性能提高了以后,它就能算完。

表面上是看性能,实际上对业务的促进是极其巨大的。所以我觉得这个市场前景还是非常的广阔,我们希望有更多的玩家进入到这个市场,踏踏实实为客户服务。毕竟现在还属于初期,市场需要共同培育成熟的这么一个过程。

目前APM随着PaaS平台的发展将面临着一个很大的市场,您认为在业务方面有什么影响?

程显峰:我应该是国内接触PaaS比较早的,当时国内的PaaS环境还没有成熟。且国内云计算厂商没有提供相应的PaaS平台,所以业内对国内的PaaS平台现在持一个比较悲观的看法,至少PaaS在国内两三年左右不会有大的动作。如果说PaaS普及后, 是能够给APM这个产品能带来巨大的价值。尤其是国外的Heroku与New Relic这种非常典型的强强联合的合作,国内缺少这样的平台。

当然,国内今后有这样的平台,我们非常愿意跟他们尝试着深入合作。PaaS肯定对APM产品有一个巨大的推动效应,但是我们整体上来看国内还是处于一个IaaS的阶段。PaaS从市场战略上还是稍远一点。

责任编辑:林师授 来源: 51CTO
相关推荐

2010-05-21 17:19:15

2009-03-28 17:28:18

四核多核服务器

2014-10-14 10:16:54

2018-12-14 14:26:35

CPU虚拟化云计算

2012-09-21 09:26:08

CPU虚拟化云计算虚拟化

2021-07-15 16:55:40

人工智能AI

2012-11-19 10:57:43

Windows 8

2013-09-17 10:09:23

植物大战僵尸2应用市场

2017-06-21 15:22:44

互联网

2016-08-29 20:53:45

Gartner大数据

2020-03-17 08:00:00

无码编程软件开发

2009-03-18 08:38:46

3G手机网游移动OS

2014-09-10 13:35:15

GitHub

2010-06-22 16:53:48

2013-05-20 09:41:37

SDN软件定义网络数据中心

2011-06-13 14:04:33

云计算浪潮行业云

2011-04-27 16:37:35

一体台式电脑

2015-08-11 09:15:46

Linux桌面Xfce

2011-09-28 13:32:27

Unix服务器甲骨文

2020-02-27 10:03:06

边缘数据中心边缘计算5G
点赞
收藏

51CTO技术栈公众号