以妥协的态度来进行IT运维

2016/12/14

       首先我不是教你认输,也不是让没有斗志, 而是基于实际情况,实事求是的脚踏实地的处理问题!

       运维中的妥协是什么?

       妥协是说我们必须承认风险的存在,只有承认风险的存在,才能对风险进行管理。受限于各种技术条件、资源条件的约束,有些风险无法完全规避,就不得不承担。

       但仅仅是说当风险变成事实时进行被动接受,不能称其为妥协,只能说是逃避。

       正确的姿势应当是:当风险存在又无法规避时,要有相应的手段控制损失程度和影响范围。不能听之任之,坐等风险成为事实。

       如何妥协?

       有一个关键的问题是,技术人员经常出现的问题是,往往是不能正确的进行妥协。例如告知组织风险的存在又不能消除风险的时候选择无视。有的想法是解决风险不是我的事,反正我已经告知了。也有情况是工程师碰到有些条件不满足时不会变通。更有甚之,以烧香拜佛求得内心安慰,就更是没有任何益处了。

       另外很容易出现的情况是,一些临时的安排,无人问津,成为永久的设置,直到故障出现。很多临时性的处理,在评估时可以很容易识别出风险。

       由于是临时性的,也就不太被重视进行严格的风险评估。临时设置完成任务后,由于处理不及时、遗漏,就会将隐患埋在系统里。这在运维环节存在大量这类的隐患。包括临时的策略,垃圾配置等。

       我处理过一个故障,一个对互联网服务的系统在忙时出现大量的网络丢包,检查网络流量和限速,都未发现问题,因此将排查重点放到了应用系统的优化上。但是系统依然断断续续的出现丢包,反复多时无法确定故障原因。

       最后进行全网配置检查才发现,在核心设备上有一条很久以前的临时策略,限制了这个子系统的带宽,取消这条策略后,故障排除。由于这条失效的临时策略未及时清除造成了系统数日的不稳定。

       我们必须承认,我们生活在一个不完美的世界,所以老人们才说,人生不如意十之八九。运维亦是如此,我们在一个不完美的世界里做运维,所以不如意也是常态。如果天下无贼,警察就没有必要存在。

       “正因为IT的世界不完美,所以这个世界才需要运维。”

       例如,如果我们要供应商保证设备不坏就是苛求。如果我们要求海底光缆不断就是苛求,就是不接受风险。这个时候,误区在于,一是我们不接受风险,让厂商承诺没有风险。二是我们认为风险不会发生在我身上。

       不论是哪一种,我们都是自己在骗自己。

       还有一种情况是,为了超高的可靠性,完全不顾目标、不计成本的情况,过度设计其实也是一种不接受风险的表现。

       通过厂商转移风险?

       让厂商违心的承诺没有风险是一种最简单也是最无效的做法。因为风险并没有被处理,这样做的目的无非是风险转移,将风险从运维自身转移到厂商身上。

       即便存在事后赔偿,从业务目标的角度来看,并不能达到风险控制的目的。此时正确的做法应该是从厂商处了解所有的风险,不能让厂商有所隐瞒。

       做到这一点比较困难的在于商务阶段,商务阶段厂商会存在为了合同故意隐瞒风险的情况。在设备或交付阶段会相对容易。曾经有厂商向我们承诺 100%,事实上尽管故障率超低,但是该出现的故障依然出现了。

       切勿心存侥幸

       侥幸心理是做运维最为危险的因素,乐观的认为风险不会发生在自己身上。有一个案例是这样的,周末的时候,一台设备引擎出现故障,由于有双引擎保护,所以设备自动切换了引擎未影响业务。

       当收到报警后,运维人员觉得是周末,不会这么背,第二块板也会坏,第二天上班时换上新引擎板也不迟。但是当天晚上,第二块引擎板真的就坏了,造成了严重的业务中断。

       其实两块引擎板相同的制造批次,相同的运行环境,会因为同一批次的元器件质量,同样的电磁环境,同样的压力下,同时发生故障的概率远远大于理论值。

       预案是一种非常重要的应对风险手段。

       预案是当我们需要承担风险的情况下,针对出现风险时的紧急处理措施。

       转载请注明出处:煜丰科技(漯河网站建设http://new.0395home.com/detail.aspx?id=130