新职业,上岗了⑤人才紧缺!动动手指头,云网智能运维员分钟巡检万台服务器
顶着烈日,在户外检查、维修通信基站和光缆线路;或者,在偌大的数据中心机房里,逐一巡检服务器、光缆等设备——在很多人的认知中,这是运营商网络运维人员在炎炎夏日里的日常工作场景。
不过,在中国移动重庆公司(下称重庆移动),网络运维人员刘世林的相关工作场景却是这样的:每天坐在位于渝北区光电园附近的办公室,动动手指头,新职业,上岗了⑤人才紧缺!动动手指头,云网智能运维员分钟巡检万台服务器利用电脑远程监控、维护30公里外中国移动(重庆)数据中心的服务器和网络设备。
刘世林所从事的职业,叫做云网智能运维员,是人社部最新发布的19个新职业之一。
云网智能运维员究竟是如何工作的?从业门槛高不高?8月6日,记者走进重庆移动,实地打探了刘世林的工作。
▲8月6日,位于渝北区中国移动重庆公司,网络运维人员刘世林正(左二)和同事正在对云监控平台进行升级迭代。记者张锦辉摄/视觉重庆
5分钟巡检1.7万台服务器
“警告,水土数据中心机房有服务器磁盘将会发生故障,需及时处理!”8月5日上午9点零1分,刘世林在办公室打开电脑1分钟内,他的手机收到这样一封邮件。
看到邮件内容后,他立即打开管理系统,进入一个云资源池。紧接着,根据邮件内容,他从近千个磁盘中快速准确找到了那个磁盘,将之移除了云资源池。
做完这一切,他又通过内部工作群,通知机房的工作人员更换该磁盘硬件。
大约5分钟后,磁盘硬件更换成功,刘世林通过管理平台重新将该磁盘加入到云资源池。
“服务器磁盘故障,轻则会使客户登录云主机的速度变慢,重则会导致客户无法登录云主机,用不了云服务。一旦发现磁盘有出问题的苗头,我们必须快速处理。”刘世林告诉记者。
而他在磁盘还未出现故障时就能收到预警信息,靠的是一种巡检脚本(相当于一种程序)。这种脚本通过分析服务器的运行状态数据,可以提前预判服务器故障并自动发送预警邮件。根据定时任务设定,每天上午9点,该脚本会自动运行一次,5分钟就能将其所在8人团队负责的1.7万台服务器运行状态数据全部分析完。
当然,靠脚本并不能做到24小时运行并发现服务器可能会发生的所有故障。因此,刘世林解决了上述磁盘隐患后,又登录了云监控平台。该平台24小时在线监测服务器,刘世林可随时查看每台服务器的实时运行状态,以便及时发现问题。同时,平台如果监测到有服务器出现故障,会同步向他发送报警短信。
突然,“嘀嗒”一声,短信音响起。刘世林一看,是客服系统发来的。短信内容是:某公司登录云主机失败,请尽快解决。
刘世林又忙活起来。只见他手指快速敲击键盘,输入指令,熟练地进行了云主机性能分析、云网络检查、云存储检查、宿主机日志分析等一系列操作。不到10分钟,他就找到了导致该公司无法登录云主机的原因——由于用户操作不当导致云主机配置冲突。基于此,他电话指导该公司技术人员重新进行云主机配置,很快就解决了问题。
从“菜鸟”成长为一把好手
利用脚本和监控平台远程巡检、实时监控服务器,为客户提供技术支撑,确保云主机正常运行、客户上云不受影响。这,就是刘世林每天的主要工作。
这份工作,看似轻松,但要胜任却并非易事。
在大学里读研时,刘世林的研究方向是机器学习和深度学习。2年前,重庆移动到学校校招技术岗人才,他被选中。入职后,他被安排到云网运维这个岗位上。
当时他觉得,自己所学专业虽然与这个职位虽然不完全对口,但总归与计算机都有一些关联,应该很快能上手。
然而,现实却给了他当头一棒。“从上班第一天起,我就深刻体会到,学校里学到的东西远远不够用,很多事都不会做。即便对于云监控平台发现的服务器故障、客户上云遇到的问题,我基本上不能单独解决。”刘世林坦言,那时,他就像一只“菜鸟”。
尽管顶着巨大的工作压力,但刘世林并未退缩。他为自己制定了提升计划:把老员工当成“师傅”,遇到不会做的事就请老员工指点;抓住每次机会,参加公司举办的相关技能培训;每天下班后,吃完晚饭还要在家里自学工作所需的知识和技能,通常要学到晚上11点。
就这样,他努力了近半年时间,才能完全独立干活儿。不过,在这之后,他仍然坚持不断地学习、提升自己。如今,他的能力已得到同事和领导认可。
从业门槛高,人才紧缺
“云网智能运维是一项综合性很强的工作,职责包括云网的日常管理、运行维护、性能调优、故障排除、应急处置等。它涉及服务器、网络、存储、数据库等多个技术领域,对从业人员要求非常高。”刘世林说,“加之随着云计算、人工智能等新技术的迭代发展和普及,云网运维的工作方式和技能要求都在不断变化,让我们必须一直保持学习状态。否则,就不能干好工作。”
从自身经历来看,刘世林认为,云网智能运维员须具备三个方面的能力:熟练运用计算机技术、网络技术、操作系统、运维工具等的基础能力;掌握云计算及虚拟化等领域知识、技能的专业能力;具备编程、大数据分析、监控平台性能优化、系统安全保障等高级能力。
就拿远程巡检服务器来说,为提高提前预警服务器故障的水平,刘世林和团队其他成员共同开发了巡检脚本,并不断对其进行优化。为此,他们利用了既往故障数据,运用了编程、大数据分析等技术。
再如,仅在上述处理某公司无法登录云主机问题的案例中,刘世林就运用了网络基础知识、操作系统管理知识和云平台特性知识,以及故障排除技巧和计算虚拟化、网络虚拟化、存储虚拟化等技术。凭此,他才快速定位问题所在,提出解决方案。
所谓云网,是指基于云计算和网络技术的一种全新网络架构,可以简单理解为云计算与网络的结合体。它是企业上云的基础。
“近年来,越来越多企业紧随数字化浪潮上云,加快数字化转型步伐,让我国的云网越来越庞大、云平台管理难度越来越大,过去主要靠人工进行云资源管理的传统云网运维模式已不适应新的需求。由此,催生了云网智能运维员。”重庆移动云网高级专家陈明介绍,数字经济时代,云网智能运维员是确保云网稳定运行、提供高效服务的“守护者”,是支撑经济社会数字化转型不可或缺的一股力量。
云网智能运维员是一种高薪职业,发展空间广阔。他们可以在电信运营商及其他云计算服务提供商、互联网企业、传统企业等多个领域找到工作机会。并且,随着经验的积累,他们还可以晋升为云计算架构师、技术经理等高级职位。
不过,如前所述,由于从业门槛高,目前我国云网智能运维员十分紧缺。业内人士介绍,目前,我国云网智能运维员仅有400万人左右,该岗位人才缺口高达150万人。未来,重庆可通过校企合作开设专业的形式,培养云网智能运维专业人才。
评论